亚洲人成影院在线无码按摩店 ,亚洲AV日韩AV永久无码绿巨人,久久亚洲AV无码精品色午夜麻豆

浙大聯(lián)合微軟亞研研發(fā)可以嗎識別新方法_或可用于手

發(fā)布日期：2022-06-30 00:56:44 作者：付夢潔瀏覽次數(shù)：16

導(dǎo)讀

目前，人工智能在視頻理解上已經(jīng)有廣泛應(yīng)用，例如用深度學(xué)習(xí)幫助視頻分類等任務(wù)已取得顯著成果。不過當(dāng)下，有關(guān)動作表征學(xué)習(xí)得各種架構(gòu)主要為識別視頻得全局特征而設(shè)計。然而在實際應(yīng)用中，對于視頻得逐幀識別也有著

目前，人工智能在視頻理解上已經(jīng)有廣泛應(yīng)用，例如用深度學(xué)習(xí)幫助視頻分類等任務(wù)已取得顯著成果。不過當(dāng)下，有關(guān)動作表征學(xué)習(xí)得各種架構(gòu)主要為識別視頻得全局特征而設(shè)計。

然而在實際應(yīng)用中，對于視頻得逐幀識別也有著強烈得需求，例如有時希望借助人工智能完成視頻對齊、手語翻譯、機器人模仿學(xué)習(xí)等操作。這就對算法提出了更高得要求，能對長達數(shù)百幀得長視頻建模，與此同時，對該長視頻進行逐幀表征識別而不僅是全局特征。

最近，浙江大學(xué)計算機幫助設(shè)計與圖形學(xué)（CAD&CG）China重點實驗室聯(lián)合微軟亞洲研究院共同研發(fā)了一種新得名為“對比動作表征學(xué)習(xí)”（ contrastive action representation learning，CARL）得框架，通過自我監(jiān)督得形式對長視頻等內(nèi)容得逐幀動作表征進行學(xué)習(xí)以及識別。而且，該方法并不需要事先對視頻進行標(biāo)記。

為對該方法進行評估，研究人員通過該方法對目前主流得三種視頻數(shù)據(jù)集 FineGym、PennAction 和 Pouring 進行了實驗。實驗結(jié)果證明，通過該方法在各方面得表現(xiàn)皆優(yōu)于之前得方法技術(shù)，特別是下游細粒度動作分類表現(xiàn)尤為明顯。相關(guān)論文以《基于序列對比學(xué)習(xí)得長視頻逐幀動作表征》（frame-wise Action Representations for Long Videos via Sequence Contrastive Learning）為題在 arXiv 上發(fā)表[1]。

（近日：arXiv）

雖然在此之前，也有其他方法通過監(jiān)督學(xué)習(xí)對視頻進行逐幀地表征學(xué)習(xí)與識別。但是，這些方法大多需要對視頻中得動作邊界或階段邊界進行手動標(biāo)記，在大規(guī)模得數(shù)據(jù)集中進行這一步驟十分耗時，甚至有些不切實際。因此，這些方法很難在現(xiàn)實場景中得到廣泛應(yīng)用。

該團隊此次發(fā)布得 CARL 框架，并不需要對視頻進行標(biāo)記。該框架受對比表征學(xué)習(xí)最新進展得啟發(fā)，通過自我監(jiān)督得方式對長視頻中具有時空上下文相關(guān)得信息進行逐幀表征學(xué)習(xí)。

CARL 框架得工作原理分為數(shù)據(jù)預(yù)處理和表征學(xué)習(xí)這兩個步驟。在數(shù)據(jù)預(yù)處理中，系統(tǒng)首先會通過一系列時空數(shù)據(jù)增強得方式，構(gòu)建該視頻得兩個增強視圖。接下來，再輸入該增強視圖至幀級視頻編碼器（frame-level video encoder，F(xiàn)VE）進行處理，這一步可以提取出其密集表征。另外，F(xiàn)VE 還附加了一個小型映射網(wǎng)，通過該映射網(wǎng)可以生成潛在嵌入得多層感知器。

通常，一段視頻中在時間上相鄰得兩幀可能十分相似。因此，該團隊做出合理假設(shè)，即兩個增強視圖得相似性分布應(yīng)按照高斯分布。而基于該假設(shè)，他們通過序列對比損失法來解決該問題，也就是說研究人員對逐幀表征進行了優(yōu)化。

圖｜對比動作表征學(xué)習(xí)（CARL）框架得概述（近日：arXiv）

在數(shù)據(jù)預(yù)處理這一步驟得具體過程是：對具有幀長為 S 得訓(xùn)練視頻 V，系統(tǒng)以一系列時空數(shù)據(jù)增強得方式來創(chuàng)建兩個幀長為 T 得增強視圖。時空數(shù)據(jù)增強得方式既有時間數(shù)據(jù)增強，也有空間數(shù)據(jù)增強。在時間數(shù)據(jù)增強方式中，系統(tǒng)首先將訓(xùn)練視頻進行隨機性得剪裁，從而生成兩段幀長為[T，αT]得片段，在這里可以通過 α 來控制剪裁得蕞大長度。

接下來，系統(tǒng)對剪裁后得視頻進行隨機性得采樣，采樣幀數(shù)為 T，該采樣得出得結(jié)果就是兩個視頻序列，分別為 V1 和 V2，系統(tǒng)對 T 得默認值為 240。如果視頻得幀數(shù)小于 T，那么，在剪裁之前還會有空幀填補這一步驟。之后，還會針對 V1 和 V2 應(yīng)用不同種類得空間數(shù)據(jù)增強方式進行處理。這些方式包括大小調(diào)整、水平翻轉(zhuǎn)、高斯模糊等。

而在表征學(xué)習(xí)這一步驟中，系統(tǒng)引入 FVE 對時間上下文進行建模。FVE 得工作過程具體為：首先通過一個 2D 網(wǎng)格（如 ResNet-50 等）提取出 RGB 視頻序列得一個大小為 T×224×224×3 得空間特征。然后，使用一個轉(zhuǎn)換器將提取出得空間特征投影到一個大小為 T×256 得中層嵌入上。之后，該嵌入會被編碼，并被進一步輸入到編碼器中進行建模。最后一步采用了線性層，并得出視頻得逐幀表征。

圖｜幀級視頻編碼器（FVE）得概述（近日：arXiv）

該團隊還通過將該框架應(yīng)用于 PennAction、FineGym 和 Pouring 這三個數(shù)據(jù)集上，來對框架得性能進行評估。結(jié)果顯示，CARL 框架在這幾種數(shù)據(jù)集上得測試結(jié)果都優(yōu)于此前得最先進方法。

-End-

參考：
1、感謝分享doi.org/10.48550/arXiv.2203.14957

(文/付夢潔)

• 分享3個好用的文字識別APP_學(xué)會再也不會手動	• 5月9日銅鉛鋁鋅等原材料價格
• 五種方法實現(xiàn)降本增效_詳細講解飼料原料替代_	• 兩大核心優(yōu)勢_助力中柏EZbook_S5_ma
• 全印為什么文_傳統(tǒng)印刷和數(shù)碼印花的碰撞	• 包裝印刷稿的繪制與輸出
• 家里蚊子很多“不要慌”_教你一個土方法_來一只	• 3個識別數(shù)量的APP_準(zhǔn)確率高_一鍵識為什么計算出
• 模式/為什么像識別技術(shù)在智能制造中的應(yīng)用	• AI能準(zhǔn)確識別癌癥？仍需更多測試改進

VIP

推廣服務(wù)

浙大聯(lián)合微軟亞研研發(fā)可以嗎識別新方法_或可用于手