原標(biāo)題:小米10背后的AI想象力 來(lái)源:闌夕
文 | 闌夕工作室
手機(jī)的想象力到底有多大?
在小米10的發(fā)布會(huì)上,這些關(guān)于手機(jī)的想象力借助AI被進(jìn)一步延展開(kāi)來(lái)。相比配置,AI技術(shù)在小米10上有更突出的體現(xiàn),換天技術(shù)、文檔拍照和語(yǔ)音合成,這些使用簡(jiǎn)單的功能背后都積累著小米自研AI多年的技術(shù)積累。
當(dāng)手機(jī)廠商大部分的產(chǎn)品性能基本相同的時(shí)候,AI技術(shù)的優(yōu)劣與否,更易使用戶感知。
這或許是小米最值得令人欣賞的地方,不是它曾經(jīng)倡導(dǎo)的互聯(lián)網(wǎng)模式,也不是它對(duì)于性價(jià)比的極致追求,更重要的是,它在想象力上有著比市場(chǎng)更超前的嗅覺(jué)。
1. 換天技術(shù)、語(yǔ)音合成、文檔拍照,小米10最亮眼的AI技術(shù)都在這里
在小米10上,AI技術(shù)幫助拍照實(shí)現(xiàn)了換天功能。盡管許多手機(jī)廠商也提出過(guò)類似功能,但實(shí)際上能夠達(dá)到小米10所呈現(xiàn)的效果的并不多。
小米AI實(shí)驗(yàn)室通過(guò)數(shù)萬(wàn)張高精度、場(chǎng)景覆蓋廣泛的天空?qǐng)D片作為訓(xùn)練集,不斷優(yōu)化模型結(jié)構(gòu),訓(xùn)練出了高精度的天空分割模型。
這樣的做法下,使得小米的天空分割算法能精準(zhǔn)分析天空和前景,邊緣識(shí)別準(zhǔn)確,分割細(xì)膩,達(dá)到像素級(jí)摳圖標(biāo)準(zhǔn)。在包含各類場(chǎng)景的全面評(píng)測(cè)集上,小米換天成片率達(dá)到90%+。
通過(guò)對(duì)MIX、Picnic、Quickshot、 Vivo攝影、玩效APP等一系列軟件和小米10換天功能的對(duì)比,軟件在自拍、遠(yuǎn)距離室外人像、復(fù)雜的城市場(chǎng)景和綠植等方面,都很難做到小米10的效果。
有沒(méi)有感覺(jué)所有廠家都在拼命研究相機(jī)?到了后4G時(shí)代,對(duì)于畫(huà)面的記錄,人們已經(jīng)不滿足于單個(gè)畫(huà)面的拍攝,而是更多地往視頻、短視頻、動(dòng)態(tài)圖片等方向延伸。這對(duì)手機(jī)廠商的相機(jī)功能和圖像處理技術(shù)提出了更高的要求,視頻相較于圖片的拍攝以及后期,處理難度都更大。
另一個(gè)AI技術(shù)在小米10上的展現(xiàn),是通過(guò)智能算法,讓以往需要滑軌、手搖等技巧才能實(shí)現(xiàn)的鏡頭效果,不用動(dòng)手機(jī)就能完成運(yùn)鏡,制作vlog。如果想在視頻中增加字幕,可以直接通過(guò)語(yǔ)音識(shí)別的方式,自動(dòng)轉(zhuǎn)化成字幕。讓用戶在使用小米10拍vlog后,后期制作的成本大大減輕。
之所以能夠達(dá)成這樣的效果,背后是小米AI實(shí)驗(yàn)室做了大量的算法優(yōu)化和實(shí)時(shí)調(diào)校,把多個(gè)計(jì)算單元有機(jī)結(jié)合,最大限度發(fā)揮了手機(jī)平臺(tái)的計(jì)算性能。
語(yǔ)音和文檔解析方面,小米10也提出了更優(yōu)的AI解決方案。
語(yǔ)音正在逐步解放人們的雙手,語(yǔ)音技術(shù)在智能硬件,虛擬助手,智能客服,智能車(chē)載等場(chǎng)景中扮演者非常重要而關(guān)鍵的角色。
小米語(yǔ)音合成從數(shù)據(jù)積累,算法創(chuàng)新和工程優(yōu)化等多方面,實(shí)現(xiàn)了流暢的中英文合成效果,尤其是在中英文銜接處如真人般的流暢自然,無(wú)切換感。此外合成速度很快,減小了用戶的等待成本。
小米拍文檔能夠識(shí)別到圖片復(fù)雜場(chǎng)景中的文檔/身份證的邊緣,沿著邊緣,將其“摳”出來(lái)。根據(jù)用戶的選擇,將文檔圖片變成黑白效果/增強(qiáng)效果,保留細(xì)節(jié),去除陰影,增強(qiáng)色澤。和語(yǔ)音合成一樣,合成速度很快,用戶無(wú)等待感知。
值得一提的是,拍文檔功能由“小米AI實(shí)驗(yàn)室武漢視覺(jué)團(tuán)隊(duì)”完全獨(dú)立負(fù)責(zé),在疫情之下他們依然交出了優(yōu)秀答卷。
僅靠列舉,小米10所能夠產(chǎn)生的想象力已超出邊界。盡管從整個(gè)智能手機(jī)行業(yè)來(lái)看,創(chuàng)新遇到瓶頸、換機(jī)潮遇冷的負(fù)面輿論不絕于耳,但依然有先驅(qū)者在其中發(fā)現(xiàn)了用戶的需求,而這些需求依然需要通過(guò)更精準(zhǔn)、更有沉淀的技術(shù)進(jìn)行解決。
2.小米AI的自研之路
羅馬不是一日建成的。相比于簡(jiǎn)單堆砌配置,AI技術(shù)的展示更能顯示出手機(jī)廠商的前驅(qū)性。
小米10所展示的AI技術(shù),意味著小米必須在2-3年前就預(yù)想到消費(fèi)者的潛在需求,并經(jīng)過(guò)長(zhǎng)時(shí)間的實(shí)驗(yàn)和測(cè)試,最終推向大眾消市場(chǎng)。
在這一點(diǎn)上,小米在2019年2月就將人工智能部拆分為獨(dú)立事業(yè)部,去年10月還加盟了國(guó)際語(yǔ)音頂級(jí)學(xué)者Daniel Povey。在AI自主研發(fā)這條道路上,小米顯然是有備而來(lái)。
在小米“手機(jī)+AIoT”的雙引擎戰(zhàn)略里,AI扮演了非常重要的角色。
目前在整個(gè)行業(yè),手機(jī)相機(jī)研發(fā)有一個(gè)明顯的趨勢(shì),就是人工智能的深度整合,具體來(lái)講有兩個(gè)方面:
一個(gè)就是手機(jī)相機(jī)的軟件化和算法化,之前很多手機(jī)相機(jī)的體驗(yàn)是靠硬件去做,但是最近這兩年,一些領(lǐng)先的體驗(yàn)是通過(guò)軟件算法實(shí)現(xiàn)。 第二個(gè)趨勢(shì)就是算法AI化,越來(lái)越多的相機(jī)算法從傳統(tǒng)圖像處理算法轉(zhuǎn)變成AI算法。這些都在小米10上集中體現(xiàn)出來(lái)。
盡管是一家互聯(lián)網(wǎng)公司,但實(shí)際上,小米的所有產(chǎn)品,包括硬件產(chǎn)品、軟件產(chǎn)品和互聯(lián)網(wǎng)服務(wù)都需要AI來(lái)賦能。
通過(guò)小米AI實(shí)驗(yàn)室的兩年研究,目前小米已經(jīng)在聲學(xué)、語(yǔ)音、視覺(jué),NLP、知識(shí)圖譜、機(jī)器學(xué)習(xí)6大方向取得一系列成果。
視覺(jué)上,小米換天得到了眾多用戶的喜愛(ài),除此之外,單攝虛化、人臉解鎖、美顏、場(chǎng)景識(shí)別等AI主導(dǎo)的功能,也早已應(yīng)用在小米的系列手機(jī)上。
語(yǔ)音方面,小米自研的語(yǔ)音識(shí)別、合成、語(yǔ)音喚醒和聲紋識(shí)別等關(guān)鍵技術(shù)也已經(jīng)落地在手機(jī)、電視、音箱等眾多小米產(chǎn)品上。其中最新的小愛(ài)音箱Pro,就包含了“就近喚醒、全屋播放、聲源定位、多通道降噪、回聲消除、去混響”等功能。近日,小米語(yǔ)音團(tuán)隊(duì)自研的“多通道端到端語(yǔ)音技術(shù)”,取得比“傳統(tǒng)多通道陣列增強(qiáng)模塊加單通道語(yǔ)音技術(shù)”更好的性能。
相比價(jià)格、商業(yè)模式,只有真正的技術(shù)實(shí)力能成為競(jìng)爭(zhēng)對(duì)手難以逾越的門(mén)檻,小米花了兩年時(shí)間,構(gòu)筑了足夠高的城墻。
3.為了更強(qiáng)大的AI,值得為小米10等待一年
厚積薄發(fā)和專注極致的快體驗(yàn),二者在小米身上得到了難得的平衡。
隸屬目前霸居智能手機(jī)排行版前五的手機(jī)廠商,創(chuàng)立時(shí)間均超過(guò)10年,最長(zhǎng)的達(dá)到了31年。在痛苦轉(zhuǎn)型上,他們都先后付出了不少代價(jià)。即使他們從功能機(jī)時(shí)代就開(kāi)始打拼,手握諸多優(yōu)勢(shì),仍然長(zhǎng)期不能打開(kāi)局面,最終還是借助智能手機(jī)的浪潮才成功突圍。
小米,不單純因?yàn)樵谥悄苁謾C(jī)浪潮中搶占了先機(jī),更在于它敏銳的市場(chǎng)嗅覺(jué),和它具有商業(yè)潛力的想象力。盡管行業(yè)縱然有大環(huán)境的限制,但作為最精細(xì)的電子產(chǎn)品本身,它依然存在令人著迷的想象空間,但這些想象力未必是硬件本身帶來(lái)的,而是驅(qū)動(dòng)這些硬件背后的技術(shù),例如AI。
換做其他人或者很難想象,就在兩年前,消費(fèi)者可供使用的手機(jī)AI功能還十分有限,人工智能更像是一個(gè)高不可攀的宏大詞匯。但截止到2019年,《2019智能手機(jī)影像技術(shù)應(yīng)用觀察及趨勢(shì)分析》報(bào)告已經(jīng)指出,隨著人工智能技術(shù)在智能手機(jī)拍照領(lǐng)域的成熟運(yùn)用,影像技術(shù)已經(jīng)成為影響手機(jī)銷(xiāo)量的重要指標(biāo)之一。
2020年以后,隨著5G的普及,智能手機(jī)的影像性能和外觀設(shè)計(jì)仍將是推動(dòng)創(chuàng)新的兩大源動(dòng)力,在這其中,小米無(wú)疑依靠自研AI打了漂亮的開(kāi)年戰(zhàn),在AI技術(shù)上的厚積薄發(fā)更能夠真正幫助一家智能手機(jī)廠商坐穩(wěn)高端的交椅。