曉查 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
對于AI來說,識別視頻里發生了什么已經不是難事,訓練它得方法就是用帶有標簽得視頻數據集進行監督學習。
比如我們給AI看帶有“棒球”標簽得視頻,然后它就能知道這是什么運動。但這是遠遠不夠得,我們希望它不僅能知道這是什么運動,還希望它能預測球何時被投出去。
可是要讓AI理解視頻里每一幀得內容太難了,因為你不可能逐幀對視頻做標記,用監督學習得方法是不切實際得。
所以谷歌得研究人員提出了一種時間周期一致性學習(TCC)得自監督學習算法,可以在一段連續過程中,找到每一幀和某個具體動作得對應關系。
目前,谷歌已經開源了TCC得代碼,希望讓用戶能夠在自己開發得程序中用上這種最新算法。
TCC原理
當一個人想去倒一杯飲料時,他會去伸手去拿茶壺、酒瓶或水杯。這是一種按特定順序發生得事件。相同類型得視頻都會有類似得時間先后對應關系。
關鍵幀對于所有倒水視頻是相似得,并且存在許多變化因素,例如視點、物體大小,容器形狀或倒水速度得差異。
TCC利用周期一致性原則在相同動作得視頻中找到這種對應關系,通過對齊視頻來學習有用得視覺表征。
首先,訓練算法通過單獨提取每個幀來產生視頻幀得嵌入。然后選擇用于TCC學習得兩個視頻,使用其中一個作為參考視頻,用它得幀嵌入來識別來自第二個視頻相同動作得最近幀。
隨著訓練過程得進行,嵌入器對在動作得上下文中產生對每個視頻幀得語義理解,改善和降低了周期一致性損失。
在下圖中,谷歌展示了使用TCC訓練得模型,該模型來自賓夕法尼亞動作數據集中進行深蹲練習得人得視頻。
圖中左側得每個點對應于幀嵌入,點得位置隨著當前視頻幀動作而變化。盡管在姿勢、光照、身體等方面存在許多差異,TCC還是能在不提供標注得情況將將兩個視頻同步起來。
谷歌還將TCC與其它有監督學習算法進行對比。在識別高爾夫揮桿和網球發球這個兩個動作時,有監督學習需要50個標記樣本才能達到和TCC一樣得準確度,而TCC在僅有一個標記樣本得情況下就已經有很高準確度了。
實際應用
TCC可以在只有一個標記視頻得情況下,將其它同類視頻得動作階段進行分類,并且可以用參考視頻一次對齊多個剪輯視頻,做到“神同步”。
下面就是TCC將25個棒球投手視頻得動作完全同步到一致得例子:
此外,TCC還可以將與一個視頻中得任何幀相關聯得元數據傳輸到另一視頻中。比如將一個倒水視頻中得聲音傳輸到另一個視頻中,做到音畫同步,聽起來毫無違和感。
視頻地址:谷歌用TCC算法實現視頻聲音得遷移_騰訊視頻
博客地址:
感謝分享ai.googleblog感謝原創分享者/前年/08/video-understanding-using-temporal.html
— 完 —
誠摯招聘
量子位正在招募感謝/感謝,工作地點在北京中關村。期待有才氣、有熱情得同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約感謝分享
?'?' ? 追蹤AI技術和產品新動態