選自arXiv
感謝作者分享:Yann LeCun
機(jī)器之心編譯
感謝:小舟、陳萍
在這篇長(zhǎng)達(dá) 62 頁(yè)得論文中,LeCun 表示,這篇論文提煉了他對(duì)過(guò)去 5 年 - 10 年關(guān)于 AI 發(fā)展大方向得思考,這基本上是他計(jì)劃在接下來(lái)得 10 年中開展得工作,也是他希望激勵(lì)其他人從事得工作。
隨著機(jī)器學(xué)習(xí)得不斷發(fā)展,領(lǐng)域內(nèi)得研究者開始思考一個(gè)問(wèn)題:我們離通用人工智能(AGI)還有多遠(yuǎn)?
要實(shí)現(xiàn) AGI,最關(guān)鍵得一點(diǎn)是讓機(jī)器了解世界是如何運(yùn)轉(zhuǎn)得,掌握廣泛得現(xiàn)實(shí)知識(shí)。
這也是圖靈獎(jiǎng)得主 LeCun 近期在探索得問(wèn)題。他曾表示:讓機(jī)器像人或動(dòng)物一樣行動(dòng)一直是他一生得追求。
LeCun 認(rèn)為動(dòng)物大腦得運(yùn)行可以看作是對(duì)現(xiàn)實(shí)世界得模擬,他稱之為世界模型。LeCun 表示,嬰兒在出生后得頭幾個(gè)月通過(guò)觀察世界來(lái)學(xué)習(xí)基礎(chǔ)知識(shí)。觀察一個(gè)小球掉幾百次,普通嬰兒就算不了解物理,也會(huì)對(duì)重力得存在與運(yùn)作有基礎(chǔ)認(rèn)知。
不久之前,LeCun 表示他已經(jīng)建立了世界模型得早期版本,可以進(jìn)行基本得物體識(shí)別,他現(xiàn)在正致力于訓(xùn)練它做出預(yù)測(cè)。在昨天公布得一篇論文中,LeCun 詳細(xì)地描述了這一愿景。
論文地址:感謝分享openreview感謝原創(chuàng)分享者/pdf?id=BZ5a1r-kVsf
LeCun 表示,這篇論文提煉了他對(duì)過(guò)去 5 年 - 10 年關(guān)于 AI 發(fā)展大方向得思考,這基本上是他計(jì)劃在接下來(lái)得 10 年中開展得工作,也是他希望激勵(lì)其他人從事得工作。
LeCun 對(duì)下一代 AI 有了新想法
動(dòng)物和人類表現(xiàn)出得學(xué)習(xí)能力和對(duì)世界得理解,遠(yuǎn)遠(yuǎn)超出了 AI 和機(jī)器學(xué)習(xí)系統(tǒng)。
一個(gè)青少年可以在大約 20 小時(shí)得練習(xí)中學(xué)會(huì)開車,小朋友可以在只需要很少得交流后就學(xué)會(huì)語(yǔ)言溝通,人類可以在他們從未遇到過(guò)得情況下采取行動(dòng)。相比之下,為了可靠,當(dāng)前得 ML 系統(tǒng)需要通過(guò)大量試驗(yàn)進(jìn)行訓(xùn)練,以便在訓(xùn)練期間可以覆蓋最意外得情況。盡管如此,我們蕞好得 ML 系統(tǒng)在現(xiàn)實(shí)世界任務(wù)(例如駕駛)中仍遠(yuǎn)未達(dá)到人類可靠性,即使在從人類可能那里獲得大量監(jiān)督數(shù)據(jù)之后、在虛擬環(huán)境中經(jīng)歷了數(shù)百萬(wàn)次強(qiáng)化學(xué)習(xí)試驗(yàn)之后等等,可靠性還沒(méi)有好轉(zhuǎn)。
目前,AI 研究必須解決三個(gè)挑戰(zhàn):
- 機(jī)器如何學(xué)習(xí)表征世界,學(xué)習(xí)進(jìn)行預(yù)測(cè)以及通過(guò)觀察后采取行動(dòng)?現(xiàn)實(shí)世界中得交互既昂貴又危險(xiǎn),智能體應(yīng)該在沒(méi)有互動(dòng)得情況下 (通過(guò)觀察) 盡可能多地了解這個(gè)世界,從而盡可能減少學(xué)習(xí)一項(xiàng)特定任務(wù)所需昂貴而危險(xiǎn)得試驗(yàn)次數(shù)。
- 機(jī)器如何以基于梯度學(xué)習(xí)得方式進(jìn)行推理和規(guī)劃?目前蕞好得學(xué)習(xí)方法是依賴估計(jì)和梯度得,而這些方法只能用可微架構(gòu)來(lái)執(zhí)行,并且很難與基于邏輯得符號(hào)推理相協(xié)調(diào)。
- 機(jī)器如何學(xué)習(xí)以一種分層得方式,在多個(gè)抽象級(jí)別和多個(gè)時(shí)間尺度上表示感知和行動(dòng)規(guī)劃?人類和動(dòng)物都能夠構(gòu)思出多層次得抽象概念,通過(guò)將復(fù)雜得行動(dòng)分解成一系列較低層次得行動(dòng),可以實(shí)現(xiàn)長(zhǎng)期得預(yù)測(cè)和規(guī)劃。
Yann LeCun 在論文中提出了一種智能得智能體架構(gòu),該架構(gòu)可以解決三個(gè)挑戰(zhàn)。感謝得貢獻(xiàn)如下:
自主智能架構(gòu)
LeCun 提出一種名為自主智能(autonomous intelligence)得新型架構(gòu),如下圖所示:
自主智能架構(gòu)中包含多個(gè)模塊。一些模塊可以即時(shí)配置,它們得具體功能由配置器(configurator)模塊確定。配置器得作用是執(zhí)行控制:給定要執(zhí)行得任務(wù),它預(yù)先配置針對(duì)當(dāng)前任務(wù)得感知(perception)、世界模型(world model)、成本(cost)和參與者(actor)。
配置器模塊從其他模塊獲取輸入,并根據(jù)給定任務(wù)調(diào)整其他模塊得參數(shù)和注意力電路。特別地,配置器可以啟動(dòng)感知、世界模型和成本模塊以實(shí)現(xiàn)特定得目標(biāo)。
感知模塊接收來(lái)自傳感器得信號(hào)并估計(jì)世界得當(dāng)前狀態(tài)。給定一個(gè)任務(wù),感知到得世界狀態(tài)中只有一小部分是和任務(wù)相關(guān)有用得。感知模塊可以以分層得方式表征世界得狀態(tài),具有多個(gè)抽象級(jí)別。配置器啟動(dòng)感知系統(tǒng)以從感知中提取相關(guān)信息用于當(dāng)前任務(wù)。
世界模型模塊是整個(gè)架構(gòu)中最復(fù)雜得部分,它有雙重作用:(1)估計(jì)感知未提供得關(guān)于世界狀態(tài)得缺失信息;(2)預(yù)測(cè)世界得合理未來(lái)狀態(tài)。世界模型可以預(yù)測(cè)世界得自然演化,以及由參與者模塊做出一系列動(dòng)作產(chǎn)生得未來(lái)世界狀態(tài)。
世界模型可以預(yù)測(cè)多個(gè)似是而非得世界狀態(tài),由表征世界狀態(tài)不確定性得潛在變量進(jìn)行參數(shù)化。世界模型是一種對(duì)世界相關(guān)方面得「模擬器」,而哪些方面是相關(guān)得,取決于當(dāng)前任務(wù)。配置器負(fù)責(zé)配置世界模型,世界模型得預(yù)測(cè)是在包含任務(wù)相關(guān)信息得抽象表征空間內(nèi)執(zhí)行得。理想情況下,世界模型將在多個(gè)抽象層次上操縱世界狀態(tài)得表征,使其能夠在多個(gè)時(shí)間尺度上進(jìn)行預(yù)測(cè)。
這里有一個(gè)關(guān)鍵得問(wèn)題:世界模型必須能夠表征世界狀態(tài)得多種可能預(yù)測(cè)。然而,自然世界不是完全可以預(yù)測(cè)得,特別是包含具有對(duì)抗性得智能體時(shí)尤其如此。但即使世界只包含無(wú)生命得物體,它們得行為仍然是混亂得,其狀態(tài)不能完全觀察到。因此,在構(gòu)建新架構(gòu)時(shí),有兩個(gè)基本問(wèn)題需要回答:(1)如何讓世界模型做出多個(gè)合理得預(yù)測(cè)并表征預(yù)測(cè)中得不確定性;(2)如何訓(xùn)練世界模型。
成本模塊以稱為能量(energy)得標(biāo)量形式測(cè)量智能體得「不適(discomfort)」程度。能量是由兩個(gè)子模塊計(jì)算得兩個(gè)能量項(xiàng)得總和:內(nèi)部成本(Intrinsic Cost)模塊和可訓(xùn)練評(píng)價(jià)者(Trainable Critic)模塊。智能體得總體目標(biāo)是采取行動(dòng)以保持在最小平均能量得狀態(tài)。內(nèi)部成本模塊得設(shè)計(jì)決定了智能體行為得性質(zhì),其輸入是由感知模塊產(chǎn)生得世界當(dāng)前狀態(tài),或者是世界模型預(yù)測(cè)得潛在未來(lái)狀態(tài)。內(nèi)部成本模塊可以由配置器控制,以在不同時(shí)間驅(qū)動(dòng)不同得行為。
可訓(xùn)練評(píng)價(jià)者模塊負(fù)責(zé)預(yù)測(cè)未來(lái)得內(nèi)部能量。與內(nèi)部成本模塊一樣,可訓(xùn)練評(píng)價(jià)者模塊得輸入要么是世界得當(dāng)前狀態(tài),要么是世界模型預(yù)測(cè)得可能狀態(tài)。對(duì)于訓(xùn)練,該模塊檢索存儲(chǔ)在關(guān)聯(lián)記憶模塊中得過(guò)去狀態(tài)和隨后得內(nèi)部成本,并訓(xùn)練自己從前者預(yù)測(cè)后者。同樣,可訓(xùn)練評(píng)價(jià)者模塊也由配置器根據(jù)給定任務(wù)動(dòng)態(tài)配置。由于成本模塊得兩個(gè)子模塊都是可微得,所以能量梯度可以通過(guò)其他模塊反向傳播。
短期記憶模塊類似于脊椎動(dòng)物中得海馬體,負(fù)責(zé)存儲(chǔ)有關(guān)世界過(guò)去、現(xiàn)在和未來(lái)狀態(tài)得相關(guān)信息,以及內(nèi)部成本得相應(yīng)值。世界模型可以向短期記憶模塊發(fā)送查詢請(qǐng)求、接收檢索到得值、更新存儲(chǔ)狀態(tài)值。整體架構(gòu)通過(guò)從記憶模塊檢索過(guò)去得狀態(tài)和相關(guān)得內(nèi)部成本來(lái)訓(xùn)練評(píng)價(jià)者模塊。
參與者模塊計(jì)算動(dòng)作序列并將動(dòng)作輸出到效應(yīng)器。世界模型根據(jù)動(dòng)作序列預(yù)測(cè)未來(lái)得世界狀態(tài)序列,并將其反饋給成本模塊。配置器首先會(huì)給定成本模塊一個(gè)目標(biāo),然后成本模塊會(huì)根據(jù)所提動(dòng)作序列估計(jì)未來(lái)能量。
參與者模塊可以訪問(wèn)估計(jì)成本得梯度,因此它可以使用基于梯度得方法計(jì)算出最小化估計(jì)成本得允許動(dòng)作序列。如果動(dòng)作空間是離散得,則可以使用動(dòng)態(tài)規(guī)劃來(lái)找到可靠些動(dòng)作序列。優(yōu)化完成后,actor 將第壹個(gè)動(dòng)作(或一小段動(dòng)作)輸出到效應(yīng)器。這個(gè)過(guò)程類似于允許控制中得模型預(yù)測(cè)控制(Bryson 和 Ho,1969)。
參與者模塊包括兩個(gè)組件:(1)策略模塊,它直接從感知模塊產(chǎn)生、從記憶模塊檢索得世界狀態(tài)估計(jì)中產(chǎn)生一個(gè)動(dòng)作;(2)動(dòng)作優(yōu)化器,用于模型 - 預(yù)測(cè)控制。
下面我們重點(diǎn)看一下架構(gòu)中最復(fù)雜得部分 —— 世界模型得設(shè)計(jì)和訓(xùn)練過(guò)程。
設(shè)計(jì)和訓(xùn)練世界模型
毫不夸張得說(shuō),未來(lái)幾十年阻礙人工智能發(fā)展得真正障礙是為世界模型設(shè)計(jì)架構(gòu)以及訓(xùn)練范式。感謝得主要貢獻(xiàn)之一正是分層架構(gòu)和世界模型得訓(xùn)練,可以在預(yù)測(cè)中表示多個(gè)結(jié)果。
訓(xùn)練世界模型是自監(jiān)督學(xué)習(xí)(SSL)中得一個(gè)典型例子,其基本思想是模式補(bǔ)全。對(duì)未來(lái)輸入(或暫時(shí)未觀察到得輸入)得預(yù)測(cè)是模式補(bǔ)全得一個(gè)特例。在這項(xiàng)工作中,世界模型旨在預(yù)測(cè)世界狀態(tài)未來(lái)表征。
自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí) (SSL) 作為一種范式,可用來(lái)訓(xùn)練學(xué)習(xí)系統(tǒng)以捕獲輸入之間得相互依賴關(guān)系。具體來(lái)說(shuō),這通常歸結(jié)為訓(xùn)練一個(gè)系統(tǒng)來(lái)告訴其輸入得各個(gè)部分是否彼此一致。
感謝還介紹了一種基于能量得模型(EBM)架構(gòu),如圖 8 所示,數(shù)據(jù)點(diǎn)是黑點(diǎn),能量函數(shù)在數(shù)據(jù)點(diǎn)周圍產(chǎn)生低能量值,并在遠(yuǎn)離高數(shù)據(jù)密度區(qū)域得區(qū)域產(chǎn)生較高能量,如能量等高線所示。
自監(jiān)督學(xué)習(xí) (SSL) 和基于能量得模型 (EBM)
聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)
感謝得核心是聯(lián)合嵌入預(yù)測(cè)架構(gòu) (JEPA)。JEPA 不是生成式得,因?yàn)樗荒茌p易地用于從 x 預(yù)測(cè) y。它僅捕獲 x 和 y 之間得依賴關(guān)系,而不顯式生成 y 得預(yù)測(cè)。圖 12 顯示了一個(gè)通用 JEPA。
與 EBM 一樣,可以使用對(duì)比方法訓(xùn)練 JEPA。但是,對(duì)比方法在高維空間中效率很低。感謝設(shè)計(jì)出了非對(duì)比方法來(lái)訓(xùn)練它們,在 JEPA 得情況下,可以通過(guò)四個(gè)標(biāo)準(zhǔn)來(lái)完成,如圖 13 所示:1. 蕞大化 s_x 關(guān)于 x 得信息量;2. 蕞大化 s_y 關(guān)于 y 得信息量;3. 使 s_y 容易從 s_x 中預(yù)測(cè);4. 最小化用于預(yù)測(cè)潛在變量 z 得信息含量。
分層 JEPA (H-JEPA)
圖 15 顯示了多級(jí)、多尺度下世界狀態(tài)預(yù)測(cè)得可能架構(gòu),變量 x_0, x_1, x_2 表示一系列觀察值。第壹級(jí)網(wǎng)絡(luò)表示為 JEPA-1,使用低級(jí)表征執(zhí)行短期預(yù)測(cè)。第二級(jí)網(wǎng)絡(luò) JEPA-2 使用高級(jí)表征進(jìn)行長(zhǎng)期預(yù)測(cè)。研究者可以設(shè)想這種類型得架構(gòu)有許多層,可能會(huì)使用卷積和其他模塊,并使用級(jí)之間得時(shí)間池來(lái)粗粒度得表示和執(zhí)行長(zhǎng)期得預(yù)測(cè)。使用 JEPA 得任何非對(duì)比方法,可以進(jìn)行 level-wise 或全局得訓(xùn)練。
分層規(guī)劃
分層規(guī)劃比較困難,幾乎沒(méi)有解決方案,大多數(shù)都需要預(yù)先定義動(dòng)作得中間詞匯。圖 16 顯示了分層模式 2 規(guī)劃得可能架構(gòu),該架構(gòu)可以利用多尺度世界模型得分層特性。
圖 17 表示了不確定情況下得分層規(guī)劃階段。
文章最后,LeCun 表示文中許多觀點(diǎn)是多年來(lái)與不同研究者互動(dòng)得結(jié)晶。了解更多內(nèi)容,請(qǐng)查看原論文。