超過1/3的組織相信資料分析和機器學習在未來3到5年內有最大的潛力明顯改變他們的經營方式。但是只有26%的組織是以數據驅動的。這個差距的最大原因之一是現今產生的大量數據是非結構化的,包含圖像、文件跟影片。據估計,這些非結構化數據佔了所有資料大約80%,至今還沒被組織使用。
Google資料雲端的其中一個目標是幫助顧客了實現所有種類和形式的資料價值。今年稍早,我們宣布BigLake,他統一數據湖和資料倉庫在一個管理框架,讓你可以透過BigQuery分析、搜尋、保護、管理和分享非結構資料。
在Next ’22上,我們宣布object table的預覽,這是BigQuery中的一種新的表格種類,為存儲在Google Cloud Storage中的非結構化數據提供結構化的紀錄介面。這讓你可以直接在BigQuery中使用如像是SQL和遠端函數現有的框架,對影像、音訊、文件和其他檔案種類進行分析和機器學習。object table也擴展我們在保護、共享和管理結構資料到非結構的最佳應用,不用學習或部署新的工具。
直接處理非結構資調使用BigQuery ML
object table包含元數據像是URI(統一資源標示符)、內容類型和大小,可以像其他BigQuery表一樣被查詢。你可以使用BigQuery ML在非結構資料進行推論。在預覽版中,你可以導入公開資源TensorFlow Hub圖像模型,或你自己的自定義模型去詮釋影像。不久之後,我們計畫讓他可以在音訊、影片、文字和很多其他型式上使用,並預先訓練模型以使用規格外的分析。觀看這個影片了解更多並查看範例。
# Create an object table CREATE EXTERNAL TABLE my_dataset.object_table WITH CONNECTION us.my_connection OPTIONS(uris=["gs://mybucket/images/*.jpg"], object_metadata="SIMPLE", metadata_cache_mode="AUTOMATIC"); # Generate inferences with BQML SELECT * FROM ML.PREDICT( MODEL my_dataset.vision_model, (SELECT ML.DECODE_IMAGE(data) AS img FROM my_dataset.object_table) );
經由分析在BigQuery本身的非結構資料,企業可以
- 自動化處理步驟,例如調整圖像尺寸以符合模型要求,進而消除手動工作量
- 利用簡單並熟悉的SQL介面快速得到觀察
- 藉由利用現存的BigQuery插槽不用新的計算型式來節省成本
Adswerve是依家領先的Google行銷、分析和雲端合作夥伴,旨在使資料人性化。Twiddy & Co.是Adswerve的顧客,是一間在北卡羅來納州的度假租賃公司。透過結合結構化與非結構化的資料,這兩間公司用BigQuery ML分析租賃房源的影像並預測點擊率,實現數據驅動的照片編輯決策。
Adswerve 的技術佈道者 Pat Grady 表示:Twiddy現在有能力使用進階影像分析在不斷改變的度假租賃提供者的環境中保持競爭力,並可以使用他們內部的SQL技術做到這一點。
處理非結構資料運用遠端功能
現在客戶使用遠端函數(UDF)處理BigQuery不支援的語言和函式庫的結構資料。我們正擴展這個處理非結構資料使用object tables的能力。
Object tables提供簽名URL,以允許在Cloud Functions或Cloud Run上運行的遠端UDF處理object tables的內容。這對執行Google預先訓練AI模型特別有用,包含 Vision AI, Speech-to-Text, Document AI,或是公開資源庫像是Apache Tika,甚至是部署性能SLA很重要的自定義模型是很重要的。
以下是一個創建object tables的例子,其中對PDF文件進行解析,使用遠程UDF作為開源庫運行。
SELECT uri, extract_title(samples.parse_tika(signed_url)) AS title FROM EXTERNAL_OBJECT_TRANSFORM(TABLE pdf_files_object_table, ["SIGNED_URL"]);
擴展更多BigQuery功能到非結構資料
商業智能-在BigQuery ML中直接分析非結構資料結果,或是透過UDF可以和你的結構資料結合,建議使用Looker Studio(免費)、Looker或任何你偏好的BI解決方案來建構統一報告。這讓你可以得到更全面的業務洞察。例如,線上零售商可以通過將退貨率與有缺陷產品的圖像相關聯來分析產品退貨率。同樣的,數位廣告商可以把廣告效益和廣告創意的各種屬性做相關聯,以做出更準確的決策。
BigQuery 搜尋索引-越來越多客戶使用BigQuery的搜尋功能來搜尋使用案例。這些能力現在也擴展到非結構資料分析。不論你是用BigQueryML 對圖像產生推理或是用遠端UDF和Doc AI 進行文檔提取,結果現在都可以被搜尋索引並用支援索引存取模式。
這裡是一個從PDF檔案解析的資料的搜尋索引範例:
CREATE SEARCH INDEX my_index ON pdf_text_extract(ALL COLUMNS); SELECT * FROM pdf_text_extract WHERE SEARCH(pdf_text, "Google");
安全性和管理-我們正在擴展BigQuery row等級安全功能來幫助你保護Google Cloud Storage上的對象。保護在對象表格(object tables)的特定row,你可以限制終端使用者檢索表中相應 URI 的簽署 URL 的能力。這是一個共享責任的安全模型,管理員需要確保終端使用者無法直接訪問Google Cloud Storage,並用從object tables的簽名URL當作唯一訪問機制。
這裡針對已進行模糊處理的個人身份資訊(PII)影像的政策範例:
CREATE ROW ACCESS POLICY pii_data ON object_table_images GRANT TO ("group:admin@example.com") FILTER USING (ARRAY_LENGTH(metadata)=1 AND metadata[OFFSET(0)].name="face_detected")
很快,Dataplex會支援object tables,讓你在BigQuery自動創造object tables並大規模經營管理非結構資料。
資料共享-你現在可以使用Analytics Hub與合作夥伴、客戶和供應商分享非結構資料,同時不影響安全性和管理性。訂閱者可以消耗與他們共享的object tables的row,並使用已簽署的URL來訪問非結構化數據對象。
開始
提交這個表單以試用這些解鎖你在BigQuery上非結構資料的能力的新功能。看這個範例了解更多關於這些新功能。