本篇文章將闡述 BigQuery 和 Cloud Datalab 作為定量分析工具的功能和實用性,可以讓您設置一個基於 Jupyter Notebook 來運行的 Cloud Datalab 教學。
如果您是定量分析師,您可以使用各種工具和技術挖掘大數據,例如:市場交易歷史,以獲取可以讓您深入了解市場趨勢的信息。由於報價和交易資訊是以可預測的時間不斷間隔發生,因此您可以透過「頻率分析」、「移動平均線」等技術來分析這些按著時間來排列的財務資料。
但處理大量資料庫是很有挑戰性的,傳統在使用的工具可能無法隨著資料庫的增長而擴展,處理資料的過程中所需要的存儲容量的大小需要能夠與資料庫同步快速地增長,因此將資料下載到電腦的硬碟不再可行。而且從傳統的資料庫查詢中檢索正確的資料子集亦可能需要很長時間。
BigQuery 透過「執行 SQL 查詢」和「Google 可以快速獲得結果的基礎設施」來解決這些問題。 您可以在 Web 上使用 BigQuery,也可以在命令列和 API 上使用它。當這與 GCP 或第三方工具的其他元件結合使用時,BigQuery 讓您能夠構建您現在需要的資料分析應用程式,而且您可以在將來把它們的架構再擴展。
在此解決方案中,您使用強大的資料分析模式:BigQuery 負責 SQL 中的繁重工作,Cloud Datalab 使用 Python 進行詳細的資料操作和視覺化。
在處理財務資料時,安全性始終很重要。 GCP 有助於以多種方式保護您的資料安全並且隱密,並且所有資料在傳輸和儲存期間都經過加密。 GCP 還符合 ISO 27001、ISO 27017、ISO 27018、SOC3、FINRA 和 PCI 標準。
目標
- 將資料庫載入到 BigQuery 中
- 使用 BigQuery 和 Cloud Datalab 查詢財務時間序列資料
- 在 Cloud Datalab 中可視化您的查詢結果
成本
本教程使用 GCP 以下需收費的元件:
- Cloud Datalab:在 GCP 上運行 Cloud Datalab 所需的資源是可被計費的, 這些資源包括了一個在 Compute Engine 裡面的虛擬機,兩個永久磁盤和用於雲端存儲備份的空間。 有關詳細資訊,請參閱 Cloud Datalab 定價頁面。
- BigQuery:本教學會在 BigQuery 中存儲接近 100 MB 的資料,並會處理少於 300 MB 的資料以執行一次查詢,而這個資料量是在 BigQuery 每個月提供的免費限制範圍內。有關 BigQuery 成本的完整詳細信息,請參閱 BigQuery 定價頁面。
您可以使用定價計算機根據預計的使用情況來估算成本。
在你開始之前
在開始本教程之前,您需要設定 Cloud Datalab。
使用 Cloud Shell
使用 Cloud SDK
如果您安裝了 SDK:LAUNCH FROM THE CLOUD SDK
如果您沒有安裝 SDK 但希望使用它來設置 Cloud Datalab:安裝並初始化 Cloud SDK。
完成筆記本中的教程
1. 在 Cloud Datalab 主頁上,用滑鼠左鍵點一下左上角的 add_box Notebook 新增新筆記本。
將在瀏覽器中打開一個包含帶有 Code Cell 的空白筆記本的新視窗頁籤。
- 將以下指令複製到 Code Cell 中,然後單擊 Run 以執行它。
!gsutil cp gs://solutions-public-assets/bigquery-datalab/* .
- 返回原本的視窗頁籤以查看其他文件, 單擊 Analyzing Financial Time Series using BigQuery and Datalab.ipynb,開始以互動的形式來完成本教程。
- 如果您不熟悉 Cloud Datalab 筆記本,請查看 docs / intro 子文件夾中的 Introduction to Notebooks.ipynb。
- 按照筆記本中本教程的其餘部分進行操作。
(原文翻譯自 Google Cloud。)