半監督學習

能自动利用少量有标记数据和大量无标记数据进行学习的机器学习范式

半監督學習(英語:Semi-supervised learning)是機器學習的一個分支,它在訓練時使用了少量的有標籤數據(Labeled data)和大量的無標籤數據(Unlabeled data)。半監督學習介於無監督學習(訓練數據全部無標籤)和有監督學習(訓練數據全部有標籤)之間。半監督學習旨在緩解訓練數據中有標籤數據有限的問題。

該圖展示了無標籤樣本對半監督學習影響的示例。上圖展示了僅採用有標籤樣本(白圈和黑圈)進行分類的一個可能的邊界。下圖展示了使用有標籤樣本(白圈和黑圈)及無標籤樣本(灰圈)進行分類的邊界。該過程可以看作聚類,使用有標籤數據來標記聚類,讓聚類邊界遠離高密度區域,或者學習數據所在的一維流形。

無監督學習適用的的問題往往有着大量的無標籤樣本,同時獲得有標籤樣本成本較高。部分其它機器學習分支有着相同動機,但是遵從不同的假設和方法,例如主動學習英語Active_learning_(machine_learning)和弱監督學習。將無標籤樣本和少量有標籤樣本同時使用時,會對學習的準確性產生極大改善。為特定問題獲得有標籤的數據通常需要熟練工(例如轉錄音頻片段)或進行物理實驗(例如確定蛋白質的三維結構,或者確定特定地點是否有油氣)。由此,獲得有標籤樣本的成本往往較高,獲取大型的、完全標註的樣本集是不可行的;同時,獲取無標籤的樣本成本往往相對較低。此時,半監督學習具有較大的使用價值。半監督學習在機器學習和人類學習的建模方面也具有理論價值。

正式的來說,半監督學習假設有獨立同分佈的樣本及對應的標籤,和個無標籤的樣本。半監督學習結合這些樣本來獲得相比於放棄無標籤樣本進行有監督學習或放棄有標籤樣本進行無監督學習更好的分類性能。

半監督學習可以是推斷學習英語Transduction_(machine_learning)歸納學習[1]推斷學習的目的是推斷給定無標籤樣本的正確標籤;歸納學習的目的是推斷的正確映射。

直觀地說,學習問題可以看成一次考試,有標籤樣本是為了幫助學習,由老師解答的樣題。推斷學習中,未解決的問題是考試題目;歸納學習中,它們是會構成考試的練習題。

對整個輸入空間進行推斷學習沒有必要(依據Vapnik準則,也是不夠謹慎的)。然而在實踐中,為推斷學習和歸納學習設計的算法通常交替使用。

假設

為了充分利用無標籤數據,數據分佈必須有某種潛在的規律。以下是半監督學習可能用到的假設:[2]

連續性、光滑性假設

「相近的數據點往往更可能有相同的標籤。」這也是有監督學習中的一般假設,該假設同時對幾何學上的簡單決策邊界有所偏好。由於很少有點相互接近但屬於不同的類別,因此半監督學習的平滑性假設還產生了對低密度區域的決策邊界的偏好。

聚類假設

「數據傾向形成離散的集群,在同一個集群中的數據點往往更可能由相同的標籤(儘管具有相同標籤的數據點可能分散在多個集群中)。」這是平滑性假設的特例,產生了帶有聚類算法的特徵學習。

流形假設

「數據大致位於比輸入空間維度更低的低維流形上。」在這種情況下,同時使用有標籤和無標籤的數據學習流形可以避免維數災難。學習過程可以使用在流形上定義的距離和密度。

當高維數據由一些難以直接建模、僅有少數幾個自由度的過程生成時,流形假設很實用。例如,人的聲音由若干聲帶褶皺(Vocal folds)控制[3]、面部肌肉由幾個肌肉控制。此時,在問題的生成空間中考慮距離和光滑性,比在所有可能的聲波或圖像中考慮問題更好。

歷史

啟發式的自訓練方法(self-training,也稱自學習(slef-learning)或自標記(self-labeling))是歷史上最古老的半監督學習方法,[2]其應用實例起源於20世紀60年代。[4]

推斷學習的框架是由弗拉基米爾·瓦普尼克於20世紀70年代正式提出[5],對使用生成模型的歸納學習的興趣也起源於同一時期。1995年,Ratsaby和Venkatesh證明了高斯混合模型半監督學習概率近似正確學習英語Probably_approximately_correct_learning(Probably approximately correct learning,PAC Learning)的邊界。[6]

半監督學習近期的流行是因為在實踐中,大量的應用可以獲得無標籤數據(例如網頁中的文本、蛋白質序列或圖片)。[7]

方法

生成式模型

低密度分離

拉普拉斯正則化

啟發式方法

參考文獻

  1. ^ Semi-Supervised Learning Literature Survey, Page 5. 2007. CiteSeerX 10.1.1.99.9681 . 
  2. ^ 2.0 2.1 Chapelle, Schölkopf & Zien 2006.
  3. ^ Stevens, Kenneth N., 1924-. Acoustic phonetics. Cambridge, Mass.: MIT Press. 1998. ISBN 0-585-08720-2. OCLC 42856189. 
  4. ^ Scudder, H. Probability of error of some adaptive pattern-recognition machines. IEEE Transactions on Information Theory. July 1965, 11 (3): 363–371. ISSN 1557-9654. doi:10.1109/TIT.1965.1053799. 
  5. ^ Vapnik, V.; Chervonenkis, A. Theory of Pattern Recognition. Moscow: Nauka. 1974 (俄語).  cited in Chapelle, Schölkopf & Zien 2006,第3頁
  6. ^ Ratsaby, J.; Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information (PDF). [2023-03-22]. (原始內容存檔 (PDF)於2017-08-09).  in Proceedings of the eighth annual conference on Computational learning theory - COLT '95. New York, New York, USA: ACM Press. 1995: 412–417. ISBN 0-89791-723-5. S2CID 17561403. doi:10.1145/225298.225348. . Cited in Chapelle, Schölkopf & Zien 2006,第4頁
  7. ^ Zhu, Xiaojin. Semi-supervised learning literature survey (PDF). University of Wisconsin-Madison. 2008 [2023-03-22]. (原始內容存檔 (PDF)於2016-03-03).