隨著上半年新型冠狀病毒 (COVID-19) 的影響力不斷加劇,醫療保健和生命科學研究人員也加緊腳步鑽研,而越來越多研究人員選擇仰賴雲端技術來輔助他們進行研究。以下是 Google Cloud 在這段疫情期間為研究單位與社群提供的支援。
協助預估 COVID-19 病毒擴散與影響
美國東北大學神經科學研究所 MoBS 實驗室於 1 月份開始在 Google Cloud 上執行大規模的數據驅動模型,以評估各項防疫措施(例如旅行限制、社交距離)會如何影響病毒傳播。這些模型非常複雜,包含許多參數和龐大的資料,且需要大量的運算能力、資料處理和儲存。
透過 Google Cloud 的高效能運算 (HPC)、Cloud Life Sciences API 進行批次處理,東北大學的研究人員能夠同時運行數千個先占式虛擬機器 (preemptible Virtual Machines, PVM) 來支援其工作。如此一來,運算這些複雜模擬所需的時間,從幾天縮減到幾個小時。此外,模擬完成後,他們能使用 BigQuery 分析結果,並與世界各地的研究人員和公衛機構迅速分享這些見解,以加快對病毒傳播方式的理解。
這樣的模擬效果相當顯著。迄今為止,東北大學的研究人員已能生成超過 900 萬個不同的模型,並分析超過 5,500 TB 的結果資料。他們還評估了匯入案例的相對風險(使用 Google 免費可視化工具 Data Studio 進行可視化),並在《科學》期刊上發表了他們的發現。MoBS 副研究員 Matteo Chinazzi 博士表示,「隨著我們努力減慢病毒的速度,開發數據驅動的模型來預測 COVID-19 感染的傳播和潛在影響是非常重要的。」
資料分析與機器學習走入醫療研究場域
為了使研究人員更廣泛地存取資料,Google Cloud 推出了 COVID-19 公開資料集計劃,讓用戶能在 BigQuery 中免費查詢與 COVID-19 相關的資料集。當中包含被廣泛引用的約翰霍普金斯大學範例資料(該範例資料也在 Google 表格中顯示),以及可能被證明與 COVID-19 研究相關的資料集,例如美國社區調查和開放街道地圖。此外,Google 也推出七個新的健康社會決定因素 (Social Determinant of Health, SDoH) 資料集,這些資料集可幫助研究人員了解美國哪些社區最容易受到疫情影響。
今 (2020) 年三月,美國白宮與相關機構便公開呼籲 AI 社群開發新的文本和資料探勘技術,以研究 COVID-19 開放研究資料集 (CORD-19),這是迄今為止最廣泛的機器可讀冠狀病毒文獻集。而 Kaggle 資料科學社群也加入這項工作,並參加其他挑戰以預測 COVID-19 的傳播。
低成本、更快速地進行疫苗藥品研發
研究人員晝夜不停地工作以更了解 COVID-19,並努力降低其對健康和全球經濟的影響。通過在 Google Cloud 成千上萬台虛擬機器 (VM) 上分佈他們的工作,研究人員能夠加速其模型和分析,從而節省大量的時間和資源。Google Cloud 先占式虛擬機器 (preemptible VMs, PVM) 相當適合運行這些易於分發、具有容錯能力的研究應用程式,使研究人員能夠以遠低於標準虛擬機器的價格,加速運算效率。
為了盡可能加快 COVID-19 研究,除本文前面提到的常規的雲端信用額度之外,Google 還透過 PVM 特定信用額度擴展了 PVM 的存取,以支持 COVID-19 研究計劃。Google 與研究人員合作,確保他們可通過使用 PVM 來加速、擴展其工作。
在美國,要研發一項新的藥物平均需要耗時 10 年、花費 20 至 30 億美金。哈佛醫學院與達納法伯癌症研究所 (Dana Farber Cancer Institute, DFCI) 使用了 VirtualFlow 這個開源可擴展的虛擬藥物探索平台,該平台使用 Google Cloud 的 PVM 以快速、更準確地縮小範圍,找到有機會拿來治療 COVID-19 的藥物與療程。
VirtualFlow 幫助他們在短短幾天內將數十億種藥物化合物靶向 SARS-CoV-2 蛋白,從而大大提高他們研究和分析 COVID-19 潛在治療的能力。
「這樣的虛擬測試方法,大幅減少了探索藥物或治療方法的時間,我們希望能夠更快地研發出疾病的療法。」哈佛醫學院的博士後研究員 Christoph Gorgulla 表示。
「在 Google Cloud 中使用數十萬個運算核心,使我們能夠在僅僅幾週內,就完成篩選十億個化合物(約 120 億個對接實例)的任務。在一台標準的筆記型電腦上完成同樣的工作估計會需要花 1,500 年。」哈佛醫學院的助理教授 Haribabu Arthanari 說。
有了藥物化合物的候選名單,哈佛醫學院團隊將與其他機構的研究人員合作,配備適當的設施以開始測試。哈佛醫學院還與其他機構並行開展了許多其他研究合作,以匹配最有希望的藥物,使其工作更加迅速。
Google 首要目標:資料的隱私與安全性
資料是教育與學術研究的基石,而資料的隱私和安全至關重要。Google Cloud 的信任原則可確保 Google Cloud 上的資料會遵循廣泛公認的患者隱私和資料安全規範來處理;使用 Google Cloud 的企業組織將受到完整的資料保護與控制。
透過以上方法,Google Cloud 將持續以雲端技術,支援教育與學術研究機構。
(原文翻譯改編自 Google Cloud。)