暨上一篇帶您了解人工智慧、機器學習、深度學習的差異後,這篇將進一步介紹該如何選擇正確且合適的資料來訓練機器學習系統。
特徵 / 屬性 (Features/Attributes)
我們透過特徵(又稱屬性) 來訓練機器學習系統。以水果為例,我們可以將水果的特徵分成重量和顏色,兩個特徵就意味著有兩個維度。如果我們用數字的方式來呈現,則可已被繪製在 2D 的象限上。
以下圖這個情況來說,ML 系統可以學會利用一條線將蘋果與橘子的資料分開。當我們輸入新的資料時,就可以運用它來做分類。(ex.) 在線上方的是橘子,下方的是蘋果。
現在聯繫 iKala Cloud,為機器學習!
更複雜的資料與系統
以水果的例子來說,我們僅使用了 2 個維度,如果您需要用 3 個維度將資料區分成 3D 圖表,則如下圖所示,會需要用一個平面分開兩組數據。其實大多數的 ML 問題所需的維數更高,甚至到 20D 都非常常見,像是在辨別圖像時,每個像素是一個特徵,這樣的情況下甚至可以到達數百萬個維度。雖然我們可能很難想像大於 3D 的畫面,但這對電腦和 ML 系統而言並非難事。
image from Vision Dummy (https://goo.gl/u8w2Zi)
Data Hunting
一旦確定使用的特徵之後,最大的挑戰就是必須找到足夠的無偏差的訓練資料,ML 系統會根據這些特徵進行學習 (這取決於使用什麼類型的 ML 演算法(algorithm))。假如要正確的辨識出一隻貓,您可能需要提供 ML 系統 10,000 張貓的照片。提供給系統的訓練資料可以很多元並不侷限於照片,也可以是具備多種特徵的數據表格、文字、感測器的讀數、聲音等等。
ML 系統無法辨別它不知道的東西
假設你讓 ML 系統進行下列動物特徵的學習:
腿數 | 顏色 | 體重 | 動物 |
4 | 黑色 | 10KG | 狗 |
2 | 橘色 | 5KG | 雞 |
如果您現在用牛的特徵來偵測,系統只知道狗和雞,它將認為這是一隻”狗”,因為這是最接近的比對結果。
腿數 | 顏色 | 體重 |
4 | 黑色 | 200KG |
延伸閱讀:
1. 人工智慧、機器學習、深度學習是什麼? – Machine Learning 教學系列 (一)
2. 如何訓練機器學習系統? – Machine Learning 教學系列(三)
The 7 Steps of Machine Learning