原標題:搜狗同傳:用 3.0 技術撬動 AI 語音市場更大版圖 來源:極客公園
「語言是人工智能皇冠上的一顆明珠」,王小川如此比喻。
從輸入法到搜索引擎,表達信息和獲取信息被搜狗汲取到了產品發展脈絡中。向 AI 時代跨越的搜狗,產品需要以新技術和新形態來承載。
而在 AI 商業化落地的進程中,搜狗以自然交互和知識計算分別作為橫軸和縱軸。橫縱交匯處,便是搜狗在 AI 語音技術和產品的布局。在已成型的項目中,有一個產品顯而易見,那就是「搜狗同傳」。
在中國,從事同傳工作的,大多數是英語專業背景,精通全領域是充分而非必要條件。而面對涉及醫療、數學和物理等領域的會議時,同傳人員并不能很好地將這些相關術語準地翻譯。
當學術盲點變成了行業痛點,以語音智能見長的科技公司便主動出擊,抓住了同聲傳譯這一細分市場的機遇。迭代到 3.0 版本的搜狗同傳,已在逾千場大型會議上登場。
搜狗認為,機器同傳的產品價值,主要體現在其致力于解決跨語言交流、跨語言信息獲取和語言表達的電子化記錄等障礙。若要真正實現這三點,不能單純地把語音識別和機器翻譯做嫁接,而需要一套完整的「有機系統」。
搜狗同傳產品的迭代軌跡
從語音到機器視覺
作為業內首個商用機器同傳的產品,搜狗同傳的初始版本要追溯至 2016 年 11 月。
「在測試級的準確率波動比較大」,這是內部對搜狗同傳 1.0 的客觀描述。比如領域、口音、中英文混雜等因素,都是導致同傳輸出的內容出現極強不確定性的原因。「只有(演講者)字正腔圓時,準確率才達到 95% 到 98%,其他時候可能只有 80%,」搜狗 AI 交互技術總監陳偉如是說。
三年后,同樣的舞臺,相近的時間,搜狗同傳進化到了第三代。對比初代版本,「其識別能力越來越強,錯誤率越來越小,穩定性越來越好」,這是團隊給出的全新評價。
早期同傳產品之所以收效甚微,恰恰是沒有很好地搭建其這套系統模型。陳偉指出,傳統的同傳產品掣肘于通用模型,在會議同傳場景下,一旦涉及專業領域的內容,機器同傳的效果和準確度就遠不及人工同傳。
搜狗同傳 1.0 發布以來就陷入了瓶頸。每逢重大場合,陳偉和團隊就忐忑不已。歸根到底,是擔心效果不好。為了加速商用化進程,團隊連帶推出了「個性化私人定制」的服務,就是投入人力,針對演講內容做優化。
在推進的過程中團隊發現,由于很難把所有演講人的 PPT 和材料收全,導致所謂的「個性化定制」很難在會前完成。當產品上了試煉戰場,疲于應付的「下下策」總不是長久之計。況且,一家科技公司不應受困于技術。
順著個性化定制的思路,團隊在琢磨:「如果把接口開放給用戶,事先上傳演講稿或重點內容會不會好一些?」實現這一點不難,單仍舊談不上進步。要知道,大會演講通常是來也匆匆,去也匆匆,嘉賓上陣 PPT 馬上跟播,不可能有充裕的時間來完成私人定制。
趔趄之中,倒逼著搜狗同傳的技術團隊研發更智能、更敏捷的同傳系統,讓機器自覺地定制語境,擺脫人工干預。
「原來我們以為,人工同傳只是戴著耳機去聽演講者在講什么,」陳偉后來了解到,同傳的過程不是全程無材料的「裸翻」。同傳師坐進全玻璃的同傳箱之前,需要提前準備一到兩天的時間,了解活動當天的全部背景資料。
以往的機器同傳,僅僅是通過語音技術來識別講述內容。而搜狗同傳 2.0 的產品啟發,實際上借鑒了人工同傳的流程。在同傳的過程中,除了做好語音識別以外,團隊意識到,視覺信息同等重要。
實際上,」每個演講者都有一套自己的話語體系,」陳偉指出,基于搜狗同傳 2.0,團隊引入 OCR 技術,通過攝像頭或數據線來捕捉 PPT 內容,算法實時在后端分析 PPT 的核心關鍵詞,搜狗同傳 3.0 的就緒度已完成了 50%。
識別翻譯協同模塊進化前后的語句對比
多模態+知識圖譜=語境引擎
當自動化定制成為過去式,最新發布的搜狗同傳 3.0,內核進化成為了「語境引擎」。除了「語音信息+OCR」的結合方式,升級后的產品,最大亮點是在「能聽會看」的多模態基礎上,注入了思考和推理能力,背后靠的是知識圖譜的加持。
從機器同傳的流程來看,當機器視覺捕捉到核心關鍵詞之后,會根據搜狗的知識圖譜技術,把相關的詞匯以及專業領域相關的詞語拓展出來,作為語音識別和翻譯的加強。
這一點非常重要。通過語境引擎構建的個性化知識,團隊在某一專業論壇做了測試評估,結果顯示其識別準確率提升了 21.7%,翻譯正確率提升了 40.3%。補足了上一代從 PPT 獲許不到太多關鍵詞的短板。
從搜狗同傳 3.0 在某論壇的的評測效果來看,滿分為 5 分,人工同傳得分 4.08,搜狗同傳 2.0 為 3.41 分,搜狗同傳 3. 為 3.82 分。「這說明這說明 3.0 的系統距離人工同傳的水平更加接近,它更像一個專家和內行一樣,去解讀和翻譯大會,」陳偉表示
以搜狗同傳 3.0 實際應用效果為例。案例一的背景是圍繞阿爾法狗和李世石的人機大戰。「投子」是一個圍棋術語,沒有語境的前提下,2.0 版本會把這一詞匯識別為「投資」,但 3.0 版本可以根據 PPT 的內容,拓展出「投子」的術語。
類似的案例還有「羅輯思維」。搜狗同傳 2.0 的系統沒有辦法捕捉語境信息去做優化和增強。3.0 版本,系統根據羅振宇的知識圖譜做拓展,自動判定跟他密切相關的是「羅輯思維」,而不是「邏輯思維」。
值得一提的是,3.0 版本在英文詞匯方面,對觀眾更加友好。例如在醫學領域,「INI」對應的是「國際神經科學研究所」的中文譯稱。以往,機器同傳的結果會直接顯示「INI」,普通聽眾很可能不太清楚其具體含義,基于機器對知識圖譜進行拓展查詢,在搜狗的專業中英文知識庫中,就可以找到與之相應的中文解釋。
語境引擎是搜狗同傳3.0取得突破的關鍵
2B 最終落向 2C
「我們認為未來面向人和機器交互過程中,一定是多模態的」,搜狗提倡的技術主張,使機器同傳和同類產品拉開了一代之差。「他們還是以同傳為主,我們已經從語音跨到了多模態,并把對于知識和語音的理解放進去,使同傳開始具備一定的認知能力。」
必須要承認的是,無論是搜狗同傳還是其他玩家,大家目前距離頂級同傳的水準還有很長的路要走。雖然真正到金字塔塔尖的同傳人才十分稀少,但陳偉認為目前的機器同傳能力和頂級人工同傳相比,仍存在不小的差距。
顯然,針對極高規格的會議場景,現階段的機器同傳還達不到要求。不過在復雜要求不高,輔助觀眾和聽眾跨語言交流的用途中,其發揮的作用愈發明顯。因此,行業應該要抱著向人工同傳學習的態度,「而不能說今天六級,明天八級,后天機器超越人工了,這不是特別好的心態。」
除了大會演講這種 2B 同傳場景,未來,機器同傳可向記者采訪、跨國辦公會議、中英文視頻直播、字幕翻譯等場景延展。這些應用場景最主要的挑戰,是怎么保證機器同傳的穩定效果,考驗的是采集設備、網絡環境、識別能力等。「預計迭代到 3.5 的版本,技術沉淀后的能力,就可以向這些場景做覆蓋了。」
盡管搜狗通過技術迭代不斷地教育市場,不過機器同傳并沒有在過去一兩年迎來爆發,搜狗同傳也并沒有通過大會獲取收入。其中很重要的因素在于,「跨代躍進的效果提升,需要一個研發周期,在這個過程中不能盲目地向 B 端市場狂推。」陳偉明確指出,搜狗同傳更多的是代表了搜狗在 AI 方面的核心競爭力和技術驅動創新上的成果,所以「不會是一個很賺錢的行業」。
而搜狗在 AI 語音商業化的進程,最終的指向還是 2C。陳偉預判,未來各種各樣的場合都可能用到搜狗同傳的技術,通過同傳打磨的能力也可以反向用于搜狗的 C 端產品。「我們希望以搜狗同傳在大會場景和 B 端的經驗、數據為基礎,不斷打磨 2B 輸出的能力,最后反哺到 2C 端的市場中。」
責任編輯:臥蟲
圖片來源:VPhoto、搜狗