如果你想開發(fā)出一種超高速物體識(shí)別系統(tǒng),比如檢測(cè)導(dǎo)彈或者路上的正在跑的汽車的話,那只用一個(gè)連著數(shù)碼相機(jī)的計(jì)算機(jī)是遠(yuǎn)遠(yuǎn)不夠的。
加州大學(xué)洛杉磯分校的電氣工程師 Aydogan Ozcan 希望改變這種情況,所以他的研究團(tuán)隊(duì)同時(shí)使用了機(jī)器學(xué)習(xí)技術(shù)、光學(xué)工具和 3D 打印技術(shù),開發(fā)出了可高速識(shí)別物體的識(shí)別系統(tǒng)。不像普通的計(jì)算機(jī),這種系統(tǒng)不需要提供外接電源,只需要提供初始光源和一個(gè)簡(jiǎn)單的探測(cè)器即可。
研究團(tuán)隊(duì)首先提出了一種全光學(xué)的深度學(xué)習(xí)框架——衍射深度神經(jīng)網(wǎng)絡(luò)(Diffractive Deep Neural Network,D2NN),該架構(gòu)采用基于深度學(xué)習(xí)算法的無源衍射層(passive diffractive layers)設(shè)計(jì),經(jīng)誤差反向傳播法(error back-propagation method)訓(xùn)練后,能夠以接近光速的高速處理能力,實(shí)現(xiàn)多種機(jī)器學(xué)習(xí)的復(fù)雜功能。團(tuán)隊(duì)最后采用 3D 打印制造出了這種光學(xué)架構(gòu),實(shí)現(xiàn)了手寫數(shù)字和時(shí)尚產(chǎn)品的圖像分類。該成果已經(jīng)發(fā)表于《Science》雜志上。
圖丨論文:All-optical machine learning using diffractive deep neural networks(利用衍射深度神經(jīng)網(wǎng)絡(luò)的全光機(jī)器學(xué)習(xí))
“構(gòu)建由光學(xué)元件堆疊成的固態(tài)人工神經(jīng)網(wǎng)絡(luò)是一種非常有創(chuàng)新性的方法,”瑞士洛桑聯(lián)邦理工學(xué)院光學(xué)與電氣工程學(xué)院教授 Demetri Psaltis 表示。
蒙特利爾大學(xué)研究機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的 Roland Memisevic 和 Yoshua Bengio 團(tuán)隊(duì)的研究生 Olexa Bilaniuk 指出,這一成果新穎之處不在深度學(xué)習(xí)部分,而是光學(xué)工程部分和使用 3D 打印“人工神經(jīng)網(wǎng)絡(luò)”的能力。“以前構(gòu)建這樣一個(gè)光學(xué)網(wǎng)絡(luò)的工作要么僅僅停留在理論上,要么也只能構(gòu)建一個(gè)又小有簡(jiǎn)單的系統(tǒng),”他補(bǔ)充道。
圖丨Aydogan Ozcan
Ozcan 團(tuán)隊(duì)希望使用該系統(tǒng)來模仿各種動(dòng)物的眼睛,這些動(dòng)物的眼睛處理光線和圖像的方式與人眼不同。如果在光學(xué)顯微鏡中使用的是較短波長(zhǎng)的光的話,這一系統(tǒng)也可以用于顯微鏡應(yīng)用和醫(yī)學(xué)成像。
為了建立他們的物體識(shí)別系統(tǒng),Ozcan 和他的同事們首先使用了深度學(xué)習(xí)的方法。目前深度學(xué)習(xí)常用于模式識(shí)別領(lǐng)域,給定音頻或視覺數(shù)據(jù),計(jì)算機(jī)可以應(yīng)用深度學(xué)習(xí)技術(shù)訓(xùn)練學(xué)習(xí)識(shí)別特定的模式,然后,利用算法習(xí)得的某些規(guī)則,來對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
在該研究中,研究人員訓(xùn)練其光學(xué)網(wǎng)絡(luò)模型來識(shí)別不同的數(shù)據(jù)類型的數(shù)據(jù),包括從 0 到 9 的手寫數(shù)字識(shí)別和各種服裝的圖像的識(shí)別。在每種情況下,計(jì)算機(jī)都創(chuàng)建了一個(gè)模型,該模型由多個(gè)像素層組成。每個(gè)像素都可以傳輸光,像素之間光的連接表示某一神經(jīng)元與本層或相鄰層中的其他神經(jīng)元的連接。
對(duì)于上述提到的兩種數(shù)據(jù)類別,研究人員使用五層 3D 打印塑料對(duì)仿真模型進(jìn)行物理再現(xiàn),然后使用激光——一種 0.4 THz 的單色光而非可見光來處理每種類型的圖像。
3D 打印的多層神經(jīng)網(wǎng)絡(luò)接收物體表面反射的光,光以光速經(jīng)過神經(jīng)網(wǎng)絡(luò)的固態(tài)結(jié)構(gòu)傳播,從模型的出口射出的光射向探測(cè)器,預(yù)先標(biāo)定探測(cè)器對(duì)應(yīng)的物體或圖片的類別,可以間接判斷所識(shí)別的物體或圖片的分類結(jié)果。
打印得到的固態(tài)模型就像是“連接著的固態(tài)大腦,除此之外,光連接神經(jīng)元,就好像信息在神經(jīng)元之間流動(dòng)一樣,”O(jiān)zcan 解釋說。
“這是一種非常高效的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),因?yàn)橐坏┍粍?dòng)衍射表面被 3D 打印出來,它們就不會(huì)使用任何電力,卻可以以光速處理模型的輸入,沒有任何延遲,”Bilaniuk 說。
研究人員正在努力提高訓(xùn)練模型的性能。在手寫數(shù)字識(shí)別實(shí)驗(yàn)中,他們的人工網(wǎng)絡(luò)在識(shí)別新的手寫數(shù)字時(shí)準(zhǔn)確度約為 91.75%。他們還希望擴(kuò)大打印的人工網(wǎng)絡(luò)的尺寸,目前論文中報(bào)道的尺寸為 8 cm×8 cm。“增加更多的層數(shù),我們可以以更高準(zhǔn)確率實(shí)現(xiàn)更復(fù)雜的任務(wù),”O(jiān)zcan 表示。
對(duì)于 Psaltis 來說,這一工作提出所帶來的問題多于答案:這個(gè)系統(tǒng)可以變得更強(qiáng)大和穩(wěn)定嗎?速度是否還可以提高?建模和 3D 打印的成本是多少?我們?nèi)绾螌⑦@一系統(tǒng)與現(xiàn)有的數(shù)字設(shè)備結(jié)合起來?
根據(jù) Bilaniuk 的說法,如果該系統(tǒng)可以適應(yīng)常規(guī)光線,并能做到小型化,那么潛在的應(yīng)用可能是手機(jī)相機(jī)中的人臉識(shí)別和自動(dòng)對(duì)焦,而且這種方案并不會(huì)像數(shù)字設(shè)備那樣消耗電池。