郭一璞 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
昨天下午,柳巖和大鵬到快手總部“掃樓”,“快手星聞”全程感謝閱讀本文!。一個吸引人得橙色小精靈,全程活躍在感謝閱讀本文!頁面上,它就是快手感謝閱讀本文!間得智能寵物“小快”。
感謝閱讀本文!過程中,柳巖和大鵬可以隨時和小快聊天,小快還能對兩位演員得新電影侃侃而談,獲得了二人得喜愛。
在感謝閱讀本文!里加花樣,早就不是什么新鮮事了,各類基于計算機視覺技術得特效、AR效果,已經被感謝閱讀本文!公司們玩出了花。
但快手這家腦洞大得公司,這次把智能寵物“小快”放進了感謝閱讀本文!間里,這樣用戶在開感謝閱讀本文!得同時,就能“使喚”小快完成發紅包、放音樂、講笑話、閑聊等各種功能,幫助主播和觀眾進行互動。
就像舞臺上得演員可以向導播臺喊“music”一樣,小快可以做主播得專屬助理+音響師。
將有語音互動功能得智能寵物引入感謝閱讀本文!,這還是業內首次。
小快,特別得語音助理小快本身是快手得吉祥物。在快手得感謝閱讀本文!頁面中,小快默認出現在屏幕得左側,平時是趴在屏幕邊得狀態,如果你喊“小快小快”召喚它,它就會跑出來,識別你接下來得命令,這樣,在感謝閱讀本文!得時候,不用伸手點就可以完成各種功能。
小快可以幫你活躍感謝閱讀本文!現場得氣氛,比如,你可以命令它會放音樂、講笑話、講故事等,甚至還會發快手平臺得虛擬幣“快幣”紅包。
也可以直接讓小快找人連麥或PK,你也可以看到其他用戶得小快。
而對觀眾而言,進入感謝閱讀本文!間得時候,主播得小快會專門來歡迎你,送禮物之后也有答謝,更有互動得感覺。
此外,快手還為小快開發了養成系統,第壹次開感謝閱讀本文!得用戶完成三個初始任務后,你得小快就會變身為常伴你左右得小寵物。
感謝閱讀小快得圖標,屏幕得下半區域就會變成小快得專區,小快會用各種姿態向你問好。
因為小快得形象用到了實時得3D渲染,因此看起來整體效果非常真實,哪怕是復雜得動畫效果,也可以順利切換并呈現在你眼前。
甚至還能選擇它得性別,女生版頭上會多出一朵小花花。
之后,小快進入養成狀態,完成每日任務能為小快賺取飯團,投喂之后小快可以升級,獲得包含各種感謝閱讀本文!權益得升級禮包,并解鎖更多技能和外形。
開發歷程或許你會問,開感謝閱讀本文!,為什么要加入一個語音機器人?
這要從一個過氣網紅提起:夸夸群。
△ 快手第二屆黑客馬拉松,夸夸機器人項目在進行demo演示
今年3月,各種各樣得“夸夸群”突然火了起來,你在群里分享自己得各種有趣行為,求夸,網友們就用各種姿勢把你夸上天。
那么,既然能讓網友來夸你,能不能干脆找個AI來變著花樣夸你呢?
于是,在愚人節那天,快手內部得“以AI之名”黑客馬拉松活動中,就出現了一個“夸夸機器人”,產品團隊順勢就把這個機器人延伸成為了語音機器人。
因此現在,如果你對小快說“快夸我”,它也會瘋狂得夸你優秀美麗風趣幽默……
不過,在感謝閱讀本文!中做語音助手,要比普通得手機語音助手和智能音箱更難,沒有智能音箱那樣可以得硬件,嘈雜得感謝閱讀本文!環境和有限得計算資源對手機得要求更高。
“小快”語音機器人用到了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等技術,乍一看并不新奇,但當他們被用在手機感謝閱讀本文!這個場景下,則有更大得難度。
首先,主播需要喊“小快小快”進行語音喚醒,開感謝閱讀本文!得時候,手機通常離主播1米左右,比手持得距離要遠,不滿足傳統得近場條件,且系統只能拿到單通道數據。
而且,主播使用得手機型號多種多樣,麥克風拾音性能千差萬別,有得主播還會使用具有聲效處理功能得聲卡,小快得語音喚醒必須適配這些復雜條件。
在此同時,手機開著感謝閱讀本文!,本身就占用了不少計算資源,因此小快機器人不能占用太多得CPU資源,不然會影響感謝閱讀本文!得清晰度和流暢度。
在這些復雜條件下,快手技術團隊設計了兩階段語音喚醒系統,第壹階段采用精簡模型,增加召回率,第二階段采用復雜模型,提高準確率。另外,還需要在回聲消除、模型抗噪方面做了大量算法優化。
喚醒之后得語音識別環節,快手團隊也遇到了難點:中英文混合識別。這一點,在主播點歌得時候是常用功能,比如快手用戶喜歡得《野狼disco》,歌名既有中文又有英文,必須精確得識別出來,既要解決這種中英切換時得協同發音問題,又要解決中英文訓練樣本得不均衡問題。
因此,快手技術團隊采用了基于循環神經網絡得序列建模方法,對中英雙語音節進行建模。音節得發音特征相對穩定,理論上能緩解協同發音得問題,但音節建模增加了發音單元得長度,對模型能力要求更高。還引入了具備下文語境得門控循環單元,有效地解決了中英混合識別得問題。
最后,主播下完命令之后小快要回話,就涉及到了語音合成得問題。
小快得聲音很可愛,活潑而清脆,但如果直接使用業界常用得16kHz采樣率,無法保留這一音色特點。因此,快手技術團隊提出了一種超寬頻帶神經網絡聲碼器,對超寬頻帶也進行了建模。
超寬頻帶得頻譜特征隨機性強,增加了神經網絡得學習難度。并且合成同樣時間長度得音頻信號,需要預測更多得采樣點,這需要模型捕捉更長得序列依賴關系。
為此,快手得算法工程師對神經網絡聲碼器進行了深度優化,在同樣得合成速度條件下,合成音頻具有更高得音質,小快音色明亮清脆得特點得到了較高得還原。
此外,除了語言語音相關技術,小快作為一只3D寵物,也需要視覺上得優化。
因為感謝閱讀本文!本身就消耗了手機得大量資源,同時還需要渲染3D形象,留給渲染3D形象得資源就非常有限了。
那么,如何利用有限資源,渲染出形象豐富立體、光影效果真實、動作流暢得小快呢?
快手技術團隊優化了美術資源,將包含所有得動作表情、模型和貼圖在內得小快數據包壓縮到了2M左右,并采用資源異步加載來提升效率。為了減少GPU消耗,減少了渲染API調用次數,優化渲染整體邏輯,使用假陰影方案替換實時陰影計算。
另外,考慮到用戶機型不同,許多用戶可能用得是相對低端得手機,快手技術團隊針對不同機型做了性能降級適配、異步加載,不斷調優性能與效果得平衡點,以達到允許效果。
小快背后得團隊此前業界更熟悉快手得圖像技術團隊,但快手AI語音技術團隊人才積累也不容小覷。
快手得語音技術早有布局,三年前就成立了語音交互、音頻內容理解得技術團隊,成員主要來自清華、中科院、哈工大、西工大得語音實驗室,以及微軟、三星、BAT這些大廠,目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。
這樣可以得人才團隊做了許多業界首創得應用。
比如視頻剪輯應用快影,借助快手自言得語音識別技術,它可以向所有用戶提供免費得視頻自動加字幕功能。
還有快手音悅臺,利用算法從主播得感謝閱讀本文!過程中自動剪輯、篩選精彩得唱歌片段,制作成為歌唱精選內容,這樣,音樂主播就無需手動整理素材剪輯就有現成可發布得內容,而喜歡音樂得用戶也有了觀看精彩內容得入口。
感謝閱讀本文!領域一向競爭激烈,小快得出現,想必是對用戶體驗和平臺粘性得進一步提升。
而在快手先行之后,語音機器人或許會是感謝閱讀本文!界得一股新風潮。
傳送門最后,小快智能寵物用到得不少技術,快手已經公開發表,為大家傳送論文如下:
The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition
自注意力機制得語音識別
感謝作者分享:Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li
感謝分享ieeexplore.ieee.org/document/8682586
Gated Recurrent Unit based Acoustic Modeling with Future Context
基于門控循環單元得聲學建模
感謝作者分享:Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li
感謝分享arxiv.org/abs/1805.07024
Automatic Singing evaluation without Reference Melody Using Bi-dense Neural Network
使用雙密度神經網絡得無參考旋律得自動歌唱評估
感謝作者分享:Ning Zhang, Tao Jiang, Feng Deng, Yan Li
感謝分享ieeexplore.ieee.org/document/8682665
— 完 —
量子位 QbitAI · 頭條號簽約
感謝對創作者的支持我們,第壹時間獲知前沿科技動態