數位轉型趨勢下,企業蒐集的資料量體越來越大,來源、格式與應用也漸趨多元。因應此一趨勢,企業的資料架構與管理思維也不斷在演進。
以往各單位彼此獨立蒐集資料,為解決這種「資料孤島」的問題,開始有「資料倉儲」集中式儲存企業各個部門的資料。而隨著近年資料科學與大數據興起,資料集延伸,企業逐漸希望由大量未經處理的原始資料 (raw data) 開始著手,也因而有了「資料湖泊」的概念產生。
本文分別針對常見的資料倉儲 (Data Warehouse)、資料湖泊 (Data Lake) 與數位廣告應用常見的 DMP (Data Management Platform) 比較差異。
(延伸閱讀:Martech 必看!手把手教學帶您正確的建立行銷資料倉儲)
資料結構與格式
資料倉儲通常是為了預定好的分析或商業目的而設計;在固定的資料結構下,資料進入倉儲時已是處理後的結構化資料。相較之下,資料湖泊則不預先定義蒐集資料的目的,蒐集到的為原始資料 (raw data)。這些 raw data 格式可能為結構化或半結構化資料。廣告系統常用的 DMP 則擁有部分資料倉儲的特性,資料同樣有預定義的格式,由用戶的瀏覽行為偏好、廣告互動情形,萃取出用戶屬性,以優化廣告受眾鎖定。
資料來源與用途
若以資料來源區分,資料倉儲與資料湖泊掌握的主要是企業第一方資料,其中可能包含個人身分信息如:e-mail、會員 ID 等,若需處理特定資料分析題目,可能另外蒐集外部資料。DMP 則是以 cookie 或裝置為基礎去蒐集網路用戶資料,這些資料會橫跨不同網站,因此對於個資的掌握也較低。
會有這些不同的格式與來源,主要原因在於三者不同的使用目的。資料倉儲是企業為了特定分析目標而設計;設計架構前會先與企業溝通,經 ETL 後的資料可快速查詢使用,常應用在 BI、視覺化、營運分析等;因為資料已按業務邏輯整理好,它也能提供資料科學家分析前的一些基本探勘,作為了解業務營運的入口。
資料湖泊則不會預先定義蒐集資料的用途,原始資料直接進入資料湖泊,因此還需花較長時間清理、運算、探索等流程,才能提供商業洞察;但也因為這樣的特性,資料湖泊的應用情境相對廣泛彈性,除了分析報表應用之外,原始資料也更容易被用於 AI 與機器學習。
DMP 則著重在廣告活動上;DMP 蒐集用戶橫跨各網站的行為與偏好,企業則可藉由 cookie ID 或裝置 ID 將自己的資料與 DMP 的第三方資料結合或交換,並介接到廣告投放平台(DSP、SSP 等)。也因為這種去識別化的資料特性,DMP 較不會著重在「單一用戶」的行為,而是「一群受眾 (cookie)」的偏好與屬性。廣告交易市場上的買方與賣方,就能使用這樣的屬性去鎖定適合的受眾/優化站上版位投遞。
使用者
資料倉儲的各種視覺化圖表產出,經常被企業的營運部門或商業分析師使用,相較之下也易於解讀。資料湖泊內的原始資料,則是資料科學家或資料工程師們去進行探索、導入機器學習建立模型。資料湖泊的價值展現不在於其底層技術,而是由企業取用資料的技巧與資料科學家的能力予以附加。
以電商網站為例,它可能擁有:用戶行為、交易紀錄、物流紀錄、商品資訊、用戶基本資料等,這些資料若持續存在於資料庫內,隨著時間累積相當可惜。但若經由適當的探索與建模,上述資料可用在個人化商品推薦、銷量預測、物流最佳化、商品自動貼標等各種 AI 情境。
另外,自從數位行銷由版位購買演進至為受眾購買後,大部分的 DSP 或 SSP 業者會建立自有 DMP 或介接其他資料提供廠商以做到精準受眾購買。但這類型的廣告會基於 cookie 投遞,所以你可能遇過以下情境:分別在電腦與手機上看過某個購物網的商品,完成訂單後,卻仍在某個裝置上看到該商品的廣告;這就是基於 cookie 投遞廣告的缺點,因其無法識別這兩個裝置背後,其實是同一位消費者。而資料倉儲或湖泊使用 CRM 名單做配對,則可避免上述問題,投遞客製化的訊息或 e-mail 給特定用戶。
快速回顧
綜合以上,快速整理幾個差異:
Data Warehouse | Data Lake | DMP | |
資料結構與格式 | 結構化,預先定義結構 | 結構化或半結構化(原始資料),不預先定義結構 | 結構化 |
資料範圍 | 較廣,涵蓋各部門 | 較廣,涵蓋各部門 | 以 cookie 為基礎的用戶行為 |
資料來源 | 企業內部為主 | 企業內部為主 | 第三方數據為主 |
主要用途 | 資料儲存、BI 與視覺化、營運分析 | 資料儲存、機器學習、AI、BI 與視覺化,靈活度較高 | 廣告投放、受眾鎖定優化 |
使用者 | 商業分析師、業務單位、資料科學家 | 資料科學家、資料工程師 | DSP / SSP 業者、媒體公司 |
參考資料來源