• <table id="006wy"><option id="006wy"></option></table>
    <table id="006wy"></table>
    <bdo id="006wy"><kbd id="006wy"></kbd></bdo>
  • <noscript id="006wy"><kbd id="006wy"></kbd></noscript>
  • <noscript id="006wy"><source id="006wy"></source></noscript>
  • 我們非常重視您的個人隱私,為了使您在本網站獲得完整的訪問體驗,請同意使用 cookie,更多詳細信息可訪問《隱私政策》

    語音識別新范式:完全的“端到端”模型優勢在哪里?

    • 2020-02-13

    • 產品 · 技術 · 實踐

    “自然科學的發展除了按常規科學一點一滴地積累之外,還必然要出現‘科學革命’。”托馬斯·庫恩在其發表于 1962 年的經典著作《科學革命的結構》中提出的“范式轉換”一詞,如今已成為大家耳熟能詳的技術用語。
    大的“范式轉換”存在于基礎科學領域,小的“范式轉化”也存在于幾乎每個細分的技術領域。

    語音識別新范式
    以自然語言處理的子領域“語音識別”為例,從 2012 年引入深度學習技術開始,語音識別的研究熱點經歷了三個階段:
    • 2011年前后,基于 DNN+HMM(深度神經網絡+隱馬爾科夫模型)的語音識別

    • 2014年前后,基于 LSTM+CTC(長短時記憶網絡+連接時序分類)的不完全端到端語音識別

    • 2017年前后,基于 Transformer(自注意力機制)的完全端到端語音識別

    如果說 2011 年深度學習的引入,是語音識別領域上一次范式轉換的起點,那么從 2017 年開始,基于注意力機制和 Transformer 新型神經網絡結構的語音識別研究,無疑標志著語音識別的新范式正在形成。

    傳統的語音識別主要框架包括:聲學模型和語言模型。2011 年前后引入深度神經網絡(DNN),主要目標是改進傳統語音識別框架中的聲學模型算法。2014年前后引入LSTM+CTC的方案,理論上實現了端到端,但因為效果不好,實際使用中仍然會加上語言模型。
    而 2017 年之后基于自注意力機制的完全端到端模型,才真正突破了“傳統框架”的限制,去除所有中間步驟和獨立子任務,充分利用深層神經網絡和并行計算的優勢,取得最優結果。在 2019 年秋天的語音領域頂會  Interspeech 上,基于自注意力機制和Transformer神經網絡結構的算法,幾乎出現在了所有語音識別相關的研究中。
    基于Transformer的完全端到端模型主要優勢有三個:
    • 第一,Transformer采用的自注意力機制是一種通過其上下文來理解當前詞的創新方法,語義特征的提取能力更強。在實際應用中,這個特性意味著對于句子中的同音字或詞,新的算法能根據它周圍的詞和前后的句子來判斷究竟應該是哪個(比如洗澡和洗棗),從而得到更準確的結果。

    • 第二,解決了傳統的語音識別方案中各部分任務獨立,無法聯合優化的問題。單一神經網絡的框架變得更簡單,隨著模型層數更深,訓練數據越大,準確率越高。因此企業可以使用更大量的專有數據集來訓練模型,得到相應場景下更準確的識別結果。

    • 第三,新的神經網絡結構可以更好地利用和適應新的硬件(比如GPU)并行計算能力,運算速度更快。這意味著轉寫同樣時長的語音,基于新網絡結構的算法模型可以在更短的時間內完成,也更能滿足實時轉寫的需求。


    Transformer-XL 進一步釋放注意力模型的優勢
    Transformer-XL 神經網絡結構是由循環智能聯合創始人楊植麟博士(共同第一作者),與Google AI、卡內基梅隆大學共同推出。在全部 5 個單詞和字符級語言建模標準數據集取得 state of the art 結果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

    從名字也可以看出來,Transformer-XL 通過引入循環機制和相對位置編碼,主要解決了超長輸入的問題。Transformer-XL對長序列建模能力更強,而語音識別的一個重要基礎就是對長序列進行建模。序列越長可以考慮的上下文音頻信息越豐富,識別越準確。也就是說,即使超長的句子,也能得出更加準確的結果。
    在面向企業的商用場景下,語音識別系統的準確率,主要取決于算法模型的先進程度以及特定領域訓練數據的規模。2019 年,在循環智能聯合創始人、CTO張宇韜博士帶領的工程團隊努力下,循環智能已經將最前沿的 Transformer-XL 技術成果落地到實際應用中。經過一年多的積累,循環智能目前在金融、教育和互聯網服務領域經過了幾十萬小時的數據訓練。
    在一家市值百億美金互聯網服務公司的實際測試中,循環智能針對電話錄音的自動語音識別(ASR)效果超過國內公認的語音巨頭和互聯網巨頭。


    從學術前沿到商業落地
    雖然學術的前沿、頂尖研究人員的重心已經轉到基于 Transformer 的研究,那些曾經輝煌的神經網絡結構,很難再取得技術突破,也不符合技術發展的方向。但是,很多從事自動語音識別(ASR)業務的公司,依然不得不固守“傳統”的神經網絡結構。
    原因有二。首先,通常將前沿學術成果落地到商業場景,本身就需要很長時間;其次對于普通公司而言,采用前沿學術成果意味著需要從一項熟悉的舊技術組合切換到另一套,甚至意味著人員的更新迭代,需要的時間更長。
    工程能力世界頂級的 Google,從學術前沿的成果到大規模商業落地,大概花了兩年多的時間,終于成功將基于Transformer的算法引入其核心搜索產品中:
    • 2017 年 6 月,“Attention is all you need” 論文發表 ,Google 在這篇論文中介紹了 Transformer,一種基于自注意力機制(self-attention mechanism)的全新神經網絡結構。短短兩年多時間,該論文在 Google 學術中的引用量達 5956 次,毫無疑問是近幾年自然語言理解領域影響力最大的論文之一。

    • 2018 年 6 月,Google 發布了基于 Transformer 的 BERT 模型,被稱為近幾年 NLP 領域最具里程碑意義的進展。

    • 2019 年 10 月,Google 在官方博客中宣布,已經將這項技術應用于搜索中,增強了對用戶搜索意圖的理解。

    新算法模型帶來的效果提升非常顯著。過去一直以來,當我們向 Google 的搜索框中輸入一個完整句子的時候,Google 的做法是用句子中的關鍵詞去匹配相應的搜索結果,并不關心句子的實際含義。正因為如此,早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎會自動忽略句子或短語中的“的”、“是”等虛詞,所以他們通常不會輸入一個自然句子,而是自己拆成關鍵詞組合,這樣對機器更加友好,也更有可能得到更好的答案。而現在,Google 搜索引擎對于長句子的理解更加深入,更懂用戶想搜索什么,因此就能匹配更好的結果。

    Google 搜索“可以幫人取藥嗎”的結果對比,新算法更準確地理解了用戶的搜索意圖,是想問能否幫人取處方藥。

    對于循環智能而言,商業落地的規模要比 Google 全球搜索的規模小很多,我們在三個月之內完成了基于原創 Transformer-XL 算法模型的完全“端到端”語音識別引擎部署,針對銷售、客服電話錄音場景的語音識別準確率同樣得到大幅提升。
    依靠在金融、教育和互聯網服務等領域不斷積累行業訓練數據,循環智能持續優化算法模型的準確率,贏得了很多大家耳熟能詳的上市公司和標桿企業的青睞,包括眾安保險、玖富、VIPKID、新東方在線、58同城、獵聘等。
    > 下篇預告
    下一篇關于語音識別的文章,我們將介紹循環智能針對電話錄音的語音識別(ASR),如何通過硬件底層優化,實現高效地語音識別引擎輸出。

      ? THE END   

    循環智能的主產品是基于對話數據的 AI 銷售中臺,針對銷售和客服場景,提供三大核心模塊:線索成單預測、客戶心聲分析和智能質檢,并提供電話錄音ASR語音識別基礎服務。掃二維碼或點擊閱讀原文申請免費試用。

    ↓↓↓

    爱如潮水高清韩国视频日本动漫