編輯註:全球金融機構-匯豐銀行 (HSBC) 與 Google Cloud 密切合作,使用自動化工具將舊資料倉儲搬遷到 BigQuery,這讓它們在資料分析上有很大的進展,維持資料的高真實性。
匯豐銀行為 66 個國家/地區的 3,900 萬客戶 (涵蓋消費者和企業) 提供數位化服務,在 21 個地區維護資料中心,並擁有超過 94,000 台伺服器。在打造基礎設施的同時,匯豐銀行不斷遇到容量的挑戰,這限制了業務的發展。隨著資料增長,HSBC 希望可以多加利用這些資料打造更好的金融服務,但礙於過去的技術,這件事無法妥善實踐。若無法從大數據中獲得 insight 和商業價值,就失去了擁有資料的意義。
我們都知道搬遷到雲端可以存儲和處理更多資料,但是作為一家全球性銀行,搬遷系統的同時,也需要保障其穩定跟安全。Google Cloud 希望以最適合客戶的方式,靈活地為客戶提供服務。我們透過自動化流程達到測試 fail fast 和部份佈署以進行測試。這種搬遷可以消除技術債,並建立了一個資料平台,讓我們能夠更專注於創新而不是管理基礎架構。為此我們發明了新技術並建立可在搬遷時使用的流程。
雲端搬遷計畫
匯豐銀行選擇 Google Cloud (特別是 BigQuery) 是因為它在小型和大型資料集上都運行的非常快,可以同時使用 SQL 界面和 Connected Sheets 與之互動。將資料及 schema 搬遷到雲端後,就不必手動管理每個細節,也不會錯過搬遷的時程表。
匯豐銀行搬遷的第一個舊資料倉儲已建立了 15 年,裏頭包含 30 年的資料、數百萬筆交易和 180 TB 的資料。它運行了 6,500 個 ETL 作業和 2,500 多個報告,從大約 100 個資料源中獲取資料。雲端遷移通常涉及重新打造或直接移轉,但這次匯豐銀行與 GCP 決定採用不同的策略:遷移 (move) 和改進 (improve),以確保能充分利用 BigQuery 的功能,包括其容量和彈性,來幫助解決我們的容量限制這一基本問題。
邁出到雲端的第一步
這次搬遷從 mapping 開始,我們選擇 architecture decision records 作為搬遷方法,這些記錄是基於技術使用者體驗,並使用敏捷開發板進行規劃,使用者體驗包括「更改資料收集」、「產品事件處理」或「緩慢更改維度」。除了上述典型的資料倉儲項目外,還有其他針對金融業的項目,例如:確保資料倉儲在特定時間點有一致的資料來源;優先搬遷歷史資料以立即減輕舊系統的負擔;儘早建立像是管理查詢和配額的度量標準。
為了簡化工作,匯豐銀行與 GCP 檢查了當前存儲在資料倉儲中的內容,並查看已使用或未使用的內容,並棄用 600 多份確認不再使用的報告,同時研究如何簡化 ETL 作業,以消除過去搬遷所帶來的技術債,讓線上維運團隊在晚上有更多的休息時間。
以下是這次搬遷使用的三步驟策略:
(一) 將 schema 遷移到 BigQuery
(二) 將報告負載遷移到 BigQuery,添加元資料標記並執行核對過程
(三) 將所有 SQL 腳本轉換為兼容 BigQuery 的腳本並移動歷史資料。
為自動化搬遷所設計的新工具
為達到自動化搬遷,這次 Google 發明了多種加速工具,這些功能不僅吻合搬遷時程,同時消