• <table id="006wy"><option id="006wy"></option></table>
    <table id="006wy"></table>
    <bdo id="006wy"><kbd id="006wy"></kbd></bdo>
  • <noscript id="006wy"><kbd id="006wy"></kbd></noscript>
  • <noscript id="006wy"><source id="006wy"></source></noscript>
  • 我們非常重視您的個人隱私,為了使您在本網站獲得完整的訪問體驗,請同意使用 cookie,更多詳細信息可訪問《隱私政策》

    循環智能的主動學習(Active Learning)技術探索與實踐:減少 80% 標注量

    • 2020-06-09

    • 產品 · 技術 · 實踐

    作者 | 李海玉、陳虞君
    編輯 | 郝曉茹
    很多企業通過建立自己的客戶聯絡中心,為客戶提供服務、解答疑惑、推介新產品。在企業與客戶的溝通過程中,產生了海量的非結構化錄音和文本數據。為了讓溝通更高效,服務質量更優,客戶滿意度更強,企業就需要從數據中洞察客戶的真實需求、管理和提升業務員的溝通能力。

    但由于需要收集分析的數據量急劇增加,從大量數據中手動提取有用的知識變得非常困難和不可能,因此需要利用自然語言處理(NLP)和數據挖掘(Data Mining)技術來幫助企業挖掘和發現有用的知識。

    為了讓機器快速學習,對溝通數據(電話錄音、在線IM溝通記錄)進行標注是必不可少的一步。但是,數據標注需要昂貴的人工或各種成本,面對海量的非結構化數據,如何經濟又準確地進行標注是一個的棘手問題。

    而主動學習(Active Learning)被認為是一種非常有效的解決方案:通過使用少量已有標注數據,讓機器學習到的模型與標注專家進行高效的交互,選出最有價值和信息量的樣本進行標注,能夠在達到預設標準的情況下,有效降低模型學習所需要的標注數據量。

    主動學習模型的分類

    目前各類研究積累了大量的主動學習模型,通常,我們有幾種不同的分類標準來劃分這些模型。
    根據輸入數據的方式,主動學習可以分為:
    • 基于流的主動學習,它將未標記的數據一次性全部呈現給一個預測模型,該模型將預測結果(實例的概率值),根據某些評價指標(比如margin)計算評估實例的價值,隨后應用主動學習決定是否應該花費一些預算來收集此數據的類標簽,以進行后續的訓練;
    • 基于池的主動學習,這個通常是離線、反復的過程。這里向主動學習系統提供了大量未標記的數據,在此過程的每個迭代周期,主動學習系統都會選擇一個或者多個未標記數據進行標記并用于隨后的模型訓練,直到預算用盡或者滿足某些停止條件為止。此時,如果預測性能足夠,就可以將模型合并到最終系統中,該最終系統為模型提供未標記的數據并進行預測。
    根據數據選擇的角度,又可以分為具有漸進關系的兩類:
    • 一是僅基于獨立同分布(IID)數據的不確定性進行主動學習,其中選擇標準僅取決于針對每個數據自身信息計算的不確定性值;
    • 二是通過進一步考慮實例相關性來進行主動學習,基于數據相關性的不確定性度量標準,利用一些相似性度量來區分數據之間的差異。
    這里涉及幾種不同的有意義的度量來對未標記數據進行打分排名,包括不確定性、代表性、不一致性、方差和錯誤率等。每個重要性度量都有一個標準,用于評估哪些數據對于提高分類器性能最重要。例如:
    • 不確定性認為最重要的未標記數據是最接近當前分類邊界的數據;
    • 代表性認為可以表示一組新實例(例如一個聚類)的未標記數據更為重要;
    • 不一致性認為在多個不同基準分類器中具有最大預測差異的未標記數據更為重要。
    另外,根據采用的分類器,主動學習模型也可以分為不同的類別。一些流行的分類器,包括樸素貝葉斯,k近鄰,決策樹,多層感知機,邏輯回歸,支持向量機和神經網絡都有相應的研究。

    解決主動學習中類不平衡問題的方法

    主動學習無疑是有效的,但最近的一些研究表明,主動學習在應用于存在類不平衡問題時往往會失敗:大類中的數據所占比例較大,可能會導致模型的訓練和預測偏向一個類。之前的一些研究,試圖通過使用不同的技術來解決這一問題。
    • Zhu和Hovy [1] 等人嘗試在主動學習過程中加入幾種采樣技術,以控制少數類和多數類中被標記實例數量的平衡,他們提出了一個基于bootstrap的過采樣BootOS策略,該策略會基于該樣本的所有k個鄰居生成一個bootstrap樣本。在每次迭代中,選擇不確定性最大的數據進行標記并加入到已標記的數據集中。對應用該過采樣策略來產生更加平衡的數據集,該數據集用于模型的重新訓練。在每次迭代中選擇具有最高不確定性的數據進行標記的操作涉及對已標記的數據進行重采樣和使用重采樣的數據集訓練新的分類器,因此,此方法的可擴展性可能是大型數據集所關注的問題。

    • Ertekin [2] 等人提出VIRTUAL,一種過采樣和主動學習相結合的方法,它建立了一種對少數群體進行重采樣的自適應技術學習者選擇最有用的樣本進行過采樣,然后該算法沿著的k個鄰居之一的方向構造一個偽樣本。該算法是一個在線算法,且它在構造偽樣本后無需在整個標記數據集上重新訓練就可以逐步構建分類器。
    • Bloodgood和Shanker [3] 等人利用了代價敏感學習的思想,用于在主動學習過程中處理失衡的數據分布,他們提出一種引入類特定代價的方法,擴展了基于SVM的主動學習的優勢,然后利用經過適當調整的代價敏感的SVM,根據基于不確定性的“margin”標準選擇數據。
    • Tomanek和Hahn [4] 等人提出了兩種基于不一致顯著性度量的主動學習方法。
    • Hualong Yu [5] 等人提出了一種基于極限學習機的主動在線加權模型。
    但這些算法在很多實際場景中的效果并不盡如人意。首先,由于缺乏真實場景中的數據集,學術中的主動學習方法是針對模擬數據集,而且樣本通常是均勻數據集,同時對數據集中待標記的樣本進行了強假設;其次,很多主動學習方法忽略了通過主動學習選擇樣本的重要性,而且在初始訓練集的選擇上也存在欠缺;第三,真實場景中的數據集噪聲更多、也更不平衡,而數據的不平衡性會在很大程度上影響主動學習策略的抽樣性能,因此我們需要降低類不平衡性帶來的影響。
    綜合以上分析,可以發現在真實場景中,類不平衡問題在很大程度上會限制主動學習策略在實際業務中的能力。

    真實場景的主動學習策略 LabelXL

    針對上述問題,循環智能(Recurrent AI)設計并提出了一種,在真實場景的不平衡文本分類任務中,有效的主動學習策略 LabelXL——讓每次標注的價值最大化。
    △ 主動學習策略 LabelXL 的工作流程
    整個主動學習流程為一個閉環,在每一輪的迭代中,已標記的少量數據集用于訓練分類模型,然后模型評估每個實例的價值,并選出最有價值和信息量的一些實例交給專家進行標注,然后將新標注的數據加入到已標記數據集中進行更新。然后主動學習重復上述過程,直至滿足預設條件為止。
    在實際訓練時,不同的樣本實例對于模型的學習貢獻度不同,如果能夠選出最有價值和信息量的一部分數據進行標注,那么就有可能僅使用少量的訓練數據而獲得同樣性能的分類模型。因此主動學習的主題,就是為當前模型,選擇信息最豐富的未標記實例。主動學習的核心任務就是采樣策略的設計,即按照一定的度量準則來選擇未標記實例。顯然,對未標記實例價值的評估和合理的樣本選擇策略尤為重要。
    考慮到實際業務場景下的真實數據十分復雜,捕捉和分析樣本的空間信息比較困難,因此在選擇價值度量時,我們優先選擇了基于不確定性的度量指標margin,同時為了降低數據類不平衡性的影響,我們對少數類(正例)采用了過采樣策略來優化訓練。過采樣方法能夠從數據集發現我們更關注的樣本,從而為算法提供足夠的數據以輸出更準確的結果。在類不平衡問題中,我們通常更關心的是少數類所蘊含和傳遞的信息。因此對少數類進行過采樣,創建數據增強的方法來增加我們更關注類別的樣本數量,并進行模型訓練。
    我們詳細對比了使用主動學習策略 LabelXL 與未使用時(隨機選取標注樣本)的算法性能差異。兩個典型的例子,如下:
    金融行業客戶的語義點“資金困難”,達到預設標準所需的標注量,降低了 80%。
    教育行業客戶的語義點“六級”,達到預設標準所需的標注量,降低了 65%。
    綜合來看,在實際業務場景下,應用主動學習策略 LabelXL 可以讓每次標注的價值最大化,從而大幅降低達到同樣的效果(F1值)所需的標注量。
    同時,不同的語義點能降低的標注量比例會有區別。在我們的測試中,大部分語義點應用主動學習策略 LabelXL 可以降低 50% ~ 80% 的標注量。也就是說,生產一個語義點(畫像/標簽)的速度通常可以提升 2~3 倍。借助 LabelXL 策略,循環智能顯著提升了 NLP 技術的規模化落地能力。
    參考資料:
    • [1] J. Zhu and E. H. Hovy. Active learning for word sense disambiguation with methods for addressing the class imbalance problem. in Proc. EMNLP-CoNLL, 2007, pp. 783–790.

    • [2] S. Ertekin, J. Huang, and C. L. Giles. Adaptive Resampling with Active Learning. 2009.

    • [3] M. Bloodgood and K. Vijay-Shanker. Taking into account the differences between actively and passively acquired data: The case of active learning with support vector machines for imbalanced datasets. in Proc. Hum. Lang. Technol., 2009, pp. 137–140.

    • [4] K. Tomanek and U. Hahn. Reducing class imbalance during active learning for named entity annotation. in Proc. 5th Int. Conf. Knowl. Capture, 2009, pp. 105–112.

    • [5] H. Yu, X. Yang, S. Zheng, and C. Sun. Active Learning From Imbalanced Data: A Solution of Online Weighted Extreme Learning Machine. IEEE Trans. Neural Netw., vol. 30, no. 4, pp. 1088-1103, Apr. 2019.

      ? THE END   
    > 推薦閱讀




    長按預約

    產品演示或試用


    循環智能

    “讓每一次溝通有更好的結果”

    線索成單預測 | 銷售執行力監督 智能質檢 | 語音識別

    >  詳情請訪問官網 rcrai.com

    爱如潮水高清韩国视频日本动漫