創(chuàng )澤機器人 |
CHUANGZE ROBOT |
用起來(lái)很方便,但你可能不知道的是,這簡(jiǎn)單的搜索動(dòng)作背后,卻是復雜的計算機視覺(jué)技術(shù)在提供支持,甚至用到了圖像內容、文本和G層語(yǔ)義屬性等多個(gè)模態(tài)下的信息融合,來(lái)實(shí)現準確的以圖搜圖。
當然,拍照購只是京東電商的眾多應用之一,跨模態(tài)技術(shù)應用還有很多,比如推薦和信息流廣告,內容審核也可以結合海量的商品圖像與對應的商品語(yǔ)義屬性,學(xué)習圖像語(yǔ)義特征表達。另外,我們在使用京東 App 時(shí)可能都有過(guò)被智能客服接待的經(jīng)歷,這背后的技術(shù),就是在任務(wù)驅動(dòng)型的多輪對話(huà)中融入視覺(jué)到語(yǔ)言的跨模態(tài)轉換技術(shù),讓智能客服可以自動(dòng)地對用戶(hù)上傳的圖片或視頻進(jìn)行自動(dòng)應答。
在物流場(chǎng)景,京東也成功地將視頻分析技術(shù)應用于物流園區作業(yè)人員行為規范管理中,特別是針對監控視頻的站點(diǎn)環(huán)境、攝像頭角度和成像條件差異性較大等難點(diǎn),京東采用了自研的基于局部——全局傳播網(wǎng)絡(luò )的通用視頻特征以及G效視頻事件時(shí)序檢測框架,并融入了跨域學(xué)習技術(shù),實(shí)現了同時(shí)在幾百個(gè)不同的站點(diǎn)中全天候的作業(yè)人員操作行為實(shí)時(shí)檢測,有效地管理了物流作業(yè)人員在各個(gè)站點(diǎn)的工作規范。
可能會(huì )有人好奇,這背后的多模態(tài)技術(shù)在京東電商和物流場(chǎng)景中具體是如何實(shí)現的,多模態(tài)技術(shù)在電商和物流中還有哪些熱門(mén)的落地應用,多模態(tài)技術(shù)本身當前發(fā)展到哪一步了,目前發(fā)展遇到了哪些瓶頸,未來(lái)又將向哪些方向發(fā)展,等等。
帶著(zhù)這些問(wèn)題,CSDN 邀請到了京東 AI 研究院算法科學(xué)家姚霆博士,來(lái)為我們答疑解惑。
師從多媒體L域L軍人物Chong-Wah Ngo
姚霆本科和碩士畢業(yè)于中國科學(xué)技術(shù)大學(xué),博士就讀于香港城市大學(xué),師從 ACM 杰出科學(xué)家,也是多媒體L域的L軍人物之一 Chong-Wah Ngo 教授。博士畢業(yè)后,他加入微軟亞洲研究院任職研究員,主研計算機視覺(jué)。2018 年 6 月,姚霆加入京東 AI 研究院,擔任算法科學(xué)家,負責L導京東視覺(jué)與多媒體實(shí)驗室的視覺(jué)內容分析團隊,研究方向主要關(guān)注視頻內容理解、視覺(jué)與語(yǔ)言,以及大規模多媒體內容搜索。
姚霆在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等會(huì )議/期刊上已發(fā)表論文 50 余篇(引用率 3600 余次),現任多媒體L域學(xué)術(shù)期刊 IEEE Transactions on Multimedia 期刊編委。值得一提的是,姚霆還是 P3D ResNet(視頻特征學(xué)習)、LSTM-A(圖像語(yǔ)義屬性)、GCN-LSTM(圖像物體關(guān)系)、HIP(圖像分層解析)、X-LAN(G階注意力機制) 的作者和計算機視覺(jué)L域重要數據集MSR-VTT(視頻描述生成) 的創(chuàng )建人,曾帶L團隊獲得多項視頻內容理解和跨域學(xué)習競賽G軍,是當之無(wú)愧的學(xué)術(shù)帶頭人。
實(shí)際上,姚霆不僅在學(xué)術(shù)上成果頗豐,在京東也有更多機會(huì )將實(shí)驗室的研究成果落地。
在這里,AI 研究院計算機視覺(jué)和多媒體實(shí)驗室主要有 4 個(gè)研究方向:人臉計算、人體分析、圖像理解和視頻分析,而姚霆所帶L的視覺(jué)內容分析團隊主要關(guān)注兩個(gè)方向,即視頻內容理解和視覺(jué)與語(yǔ)言。前者包括從底層的針對視頻理解的神經(jīng)網(wǎng)絡(luò )設計,視頻特征表達學(xué)習,到視頻動(dòng)作/事件識別,動(dòng)作定位和檢測,視頻語(yǔ)義分割,視頻描述生成等全棧式的分析維度,后者則集中在圖像/視頻的語(yǔ)義特征學(xué)習,視覺(jué)與語(yǔ)言的特征交互,以及跨模態(tài)的預訓練課題。
以學(xué)術(shù)研究帶動(dòng)產(chǎn)業(yè)落地,正是姚霆所帶L的團隊要做的事,在多模態(tài)技術(shù)研究上,這支團隊一直嘗試多模態(tài)L域有所突破,比如近期該實(shí)驗室在視覺(jué)與語(yǔ)言方向提出了一個(gè)全新的G階注意力機制(X-linear Attention Block),首次將其融入至圖像描述生成任務(wù)中,主要的技術(shù)創(chuàng )新是打破了傳統注意力機制中一階的特征交互限制,通過(guò)所設計的G階注意力機制可以靈活地捕捉不同模態(tài)間G階乃至無(wú)窮階的特征交互,大大提升了視覺(jué)到語(yǔ)言的跨模態(tài)轉換性能。這個(gè)注意力機制在 COCO 在線(xiàn)測試集上達到世界L先的水平,并被 CVPR 2020 接收。
在視頻內容理解課題上,實(shí)驗室在 2019 年提出了局部——全局傳播(LGD)網(wǎng)絡(luò )。這種全新的神經(jīng)網(wǎng)絡(luò )結構設計另辟蹊徑地在傳統三維卷積網(wǎng)絡(luò )基礎上引入了對全局信息的獨立建模,提升了視頻基礎特征的描述能力。此外,不同于現有的由人工設定的視頻網(wǎng)絡(luò )結構,實(shí)驗室還創(chuàng )新性地提出了基于可微分結構搜索的視頻網(wǎng)絡(luò )結構自動(dòng)搜索方法(SDAS),從而在視頻數據上讓機器自動(dòng)地學(xué)習和設計針對視頻內容理解的網(wǎng)絡(luò )結構,同時(shí)也可以在搜索過(guò)程中加入對于運行效率的約束,以定制化地搜索優(yōu)的網(wǎng)絡(luò )結構。
多模態(tài)表示學(xué)習、模態(tài)轉化等“老大難”問(wèn)題怎么解決?
保持技術(shù)創(chuàng )新的過(guò)程中,姚霆團隊很清楚地意識到,多模態(tài)在技術(shù)層面一定繞不過(guò)一些難以解決的“老大難”問(wèn)題,比如多模態(tài)表示學(xué)習、模態(tài)轉化、多模態(tài)融合、跨模態(tài)分析、跨域學(xué)習,就是幾個(gè)典型的挑戰。針對這些問(wèn)題,京東其實(shí)提出了一些有效的方法,也許對相關(guān)L域的研究人員和學(xué)習者有一定借鑒意義。
在多模態(tài)表示和跨模態(tài)轉化方向,姚霆以視覺(jué)和語(yǔ)言方面舉例,2017 年在圖像特征表達方面融入了G層語(yǔ)義特征,以增強所生成語(yǔ)言描述和圖像的語(yǔ)義一致性;2018 年則更進(jìn)一步挖掘了圖像中物體和物體間的語(yǔ)義空間關(guān)系,構建出物體間語(yǔ)義和空間的關(guān)系圖,從而促進(jìn)對圖像內容的深層次理解。然而,盡管物體間關(guān)系圖有效地引入了物體間關(guān)系的語(yǔ)義信息,但依然無(wú)法充分表達整個(gè)圖像所包含的豐富語(yǔ)義,所以在 2019 年,京東又提出了一種多層次的樹(shù)形語(yǔ)義結構,它囊括了從語(yǔ)義分割后的物體實(shí)例到檢測后的物體區域再到整個(gè)圖像的不同層級之間的語(yǔ)義信息。通過(guò)這樣一種樹(shù)形結構,可以有效地對物體不同層次間語(yǔ)義關(guān)聯(lián)性進(jìn)行編碼,從而終生成更為準確的描述文本。
這一系列工作的研究脈絡(luò )基本都是圍繞著(zhù)在跨模態(tài)轉化過(guò)程中不斷強調對視覺(jué)內容的理解,而語(yǔ)言建模部分都是采用通用的 RNN 或 Transformer 類(lèi)似的結構來(lái)實(shí)現。不同于這一研究脈絡(luò ),在今年京東的工作中,他們在上文中提到的G階注意力機制則逐漸聚焦于視覺(jué)內容和語(yǔ)言建模這兩者之間的特征交互,希望可以通過(guò)不同模態(tài)間基于G階的信息交互,讓兩者成為相互促進(jìn)的整體。
跨域學(xué)習也是京東另一個(gè)持續關(guān)注的研究方向。姚霆解釋到,因為跨域學(xué)習可以很好地提升模型在不同場(chǎng)景下的泛化能力,并且無(wú)需更多目標場(chǎng)景下的人工標注就能實(shí)現模型在不同域下的遷移,這與京東在各種實(shí)際場(chǎng)景中快速進(jìn)行模型落地的需求吻合。所以,針對跨域學(xué)習,京東在廣度和深度上都有一些研究。
首先在廣度上,京東研究了如何在圖像整體特征級別、局部區域級別和像素級別進(jìn)行跨域學(xué)習,使得這些跨域學(xué)習技術(shù)可以無(wú)縫地適用于圖像識別、物體檢測和語(yǔ)義分割這幾大任務(wù),同時(shí)脫離開(kāi)特征級別的跨域遷移,還結合生成式對抗網(wǎng)絡(luò ),直接在原始圖像、視頻上進(jìn)行無(wú)監督跨域轉換。
在深度上,實(shí)驗室也對跨域學(xué)習框架進(jìn)行了一些變革與創(chuàng )新,比如 2019 年提出了一個(gè)基于原型網(wǎng)絡(luò )的跨域學(xué)習框架(TPN,Transferrable Prototypical Networks),它可以將特征學(xué)習和目標任務(wù)的學(xué)習融為一體,有效地提升跨域學(xué)習的性能,此外,實(shí)驗室還從理論上證明了自主學(xué)習(self-learning)對于模型跨域轉換的促進(jìn)作用。在今年的 CVPR 上,實(shí)驗室利用無(wú)監督聚類(lèi)技術(shù)深挖目標域的內在數據結構,并利用這一信息更好地指導跨域學(xué)習,在主流的數據集 Office 和 VisDA的封閉集和開(kāi)放集上均取得了 SOTA 效果,其中在 VisDA 2017 數據集上達到 87.2% 的準確率。。
多模態(tài)熱門(mén)應用之視頻分析
再進(jìn)一步聊到多模態(tài)技術(shù)在應用上的進(jìn)展,姚霆提到了視頻分析技術(shù)實(shí)用性非常強的熱門(mén)研究方向。京東當然也洞察到這個(gè)有潛力的方向,在視頻分析技術(shù)的各大方向均有自研的獨創(chuàng )性工作。
其中基本是視頻特征表達的學(xué)習,目標在于從原始視頻數據中學(xué)習包含G層語(yǔ)義信息的特征向量。為此,姚霆團隊設計了幾種獨特的三維卷積網(wǎng)絡(luò )模型,比如偽三維卷積神經(jīng)網(wǎng)絡(luò )和局部——全局傳播網(wǎng)絡(luò )。在這些特征的基礎上,實(shí)驗室還搭建了包括視頻事件檢測、視頻語(yǔ)義分割和視頻動(dòng)作檢測的視頻理解系統,實(shí)現對視頻內容的全方位分析。與此同時(shí),在每一個(gè)視頻分析的具體應用中,實(shí)驗室也都沉淀了相應的技術(shù)創(chuàng )新,比如針對視頻事件檢測提出了使用時(shí)域G斯函數對事件發(fā)生時(shí)間段進(jìn)行預測的方法,同時(shí)也設計了基于網(wǎng)絡(luò )結構自動(dòng)搜索的語(yǔ)義分割方法,用以達成實(shí)時(shí)的視頻語(yǔ)義分割;針對視頻動(dòng)作檢測,提出了同時(shí)對長(cháng)短時(shí)關(guān)聯(lián)性進(jìn)行建模的方法,也獲得了在該L域L先的性能。
多模態(tài)熱門(mén)應用之視頻分析之視頻內容理解
視頻內容理解同樣是一個(gè)熱門(mén)的多模態(tài)研究方向。姚霆預測,在未來(lái),視頻內容理解有兩個(gè)較為重要的發(fā)展趨勢,即無(wú)標注或弱標注視頻數據的使用,以及針對視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò )設計。
首先,數據是深度學(xué)習訓練的基礎,同時(shí)也是發(fā)展視頻內容理解技術(shù)的必備條件。目前視頻內容理解系統的訓練通常依靠大量的人工標注視頻數據,這就不可避免地需要耗費時(shí)間和人力。如果可以充分利用互聯(lián)網(wǎng)上海量的無(wú)標注或弱標注視頻數據來(lái)進(jìn)行訓練,將會(huì )突破視頻數據來(lái)源的限制,多面提升視頻內容理解的性能。因此,無(wú)監督學(xué)習、半監督學(xué)習與弱監督學(xué)習都將成為視頻內容理解的新趨勢。
另一個(gè)方向則是針對視頻特質(zhì)的神經(jīng)網(wǎng)絡(luò )結構設計,目前視頻內容理解中所使用的網(wǎng)絡(luò )結構通常與圖像L域的網(wǎng)絡(luò )結構G度耦合,它們并不是真正為視頻而生的網(wǎng)絡(luò )結構,缺乏對視頻數據獨到且深刻的見(jiàn)解。所以,如何針對視頻數據來(lái)設計全新一代的神經(jīng)網(wǎng)絡(luò )結構,也是視頻內容理解L域一個(gè)重要的發(fā)展趨勢。
針對跨模態(tài)分析L域,盡管視覺(jué)內容的理解可以隨著(zhù)各種G性能網(wǎng)絡(luò )的設計和深層語(yǔ)義的挖掘不斷升級,視覺(jué)和語(yǔ)言間交互的方式也已經(jīng)從傳統的一階注意力機制演化到可捕捉G階乃至無(wú)窮階信息交互的注意力機制,但視覺(jué)與語(yǔ)言的技術(shù)發(fā)展依然逃脫不了深度學(xué)習對于訓練數據的貪婪。
因此,如何能在海量的弱監督數據上學(xué)習更具泛化能力的視覺(jué)和語(yǔ)言之間本質(zhì)聯(lián)系,將是下一個(gè)研究的熱潮。而一旦在這些海量的弱監督甚至于無(wú)監督數據上通過(guò)預訓練學(xué)習到了蘊含有多模態(tài)間本質(zhì)聯(lián)系的模型,便可賦予它在各種視覺(jué)與語(yǔ)言任務(wù)上的生命力;诖,我們也在數以?xún)|計的網(wǎng)頁(yè)上持續不斷地自動(dòng)抓取視頻——語(yǔ)言的多模態(tài)數據,構建了視頻——語(yǔ)言L(fǎng)域弱監督的大規模數據集(Auto-captions on GIF dataset),并正在 ACM Multimedia 2020 上舉辦跨模態(tài)預訓練的競賽,其目的還是希望能為跨模態(tài)預訓練技術(shù)的未來(lái)發(fā)展準備好一個(gè)充分與完備的平臺。
電商、物流+多模態(tài)發(fā)展空間大,突破口在哪?
盡管電商和物流業(yè)中,計算機視覺(jué)和多媒體技術(shù)已經(jīng)有很多落地應用了,比如拍照購、內容審核和物流園區作業(yè)人員行為規范管理等,但在姚霆看來(lái),縱觀(guān)整個(gè)電商和物流體系,依然有一部分業(yè)務(wù)需要人工檢驗確認步驟,還遠遠沒(méi)有達到計算機視覺(jué)和多媒體技術(shù)完全自主的階段。簡(jiǎn)言之,當前電商、物流場(chǎng)景與這些技術(shù)的結合還處于局部智能化的階段,整個(gè)產(chǎn)業(yè)鏈并沒(méi)有得到顛覆性的革新。
“我們希望,隨著(zhù)整個(gè)電商平臺和供應鏈的不斷數字化,加上智能配送系統的持續發(fā)展,未來(lái)的電商、物流業(yè)務(wù)可以從計算機視覺(jué)和多媒體技術(shù)輔助的方式,逐漸轉變成為由這些技術(shù)完全主導的機器自助,乃至多機協(xié)同,在電商與物流的每一個(gè)環(huán)節上都盡可能地使用智能的方式進(jìn)行全局調度,尋求更加G效智能的供應鏈。這也正是我們目前正在建設的智能供應鏈開(kāi)放平臺的愿景,即依托人工智能技術(shù)與供應鏈系統,打造智能供應鏈產(chǎn)業(yè)生態(tài),賦能現代供應鏈的生產(chǎn)、流通、消費三大場(chǎng)景!彪m然電商和物流業(yè)中多模態(tài)技術(shù)的應用還不夠成熟,但姚霆十分看好這一L域的發(fā)展空間。
多模態(tài)技術(shù)被很多人視為未來(lái)獲得真正的機器智能的途徑之一,對于這一觀(guān)點(diǎn),姚霆表示不能完全認同。他認為,首先需要肯定的是,相比于只側重單一模態(tài)的技術(shù)(比如圖像識別、動(dòng)作檢測、機器翻譯等),多模態(tài)技術(shù)一定距離真正的機器智能更近一些,因為機器智能的終J目的是模擬人的智能,而人之本身對于這個(gè)世界的認識一定是視聽(tīng)說(shuō)的結合,這就對應著(zhù)多模態(tài)技術(shù)的融合。因此,對于機器而言,只有綜合來(lái)源于不同模態(tài)的知識才能對這個(gè)真實(shí)的世界實(shí)現多面綜合的理解,這也正是達到真正人類(lèi)級別的智能的基石之一。但是,當前的多模態(tài)技術(shù)還遠遠未達到能通向真正機器智能的水平,因為它缺乏了人的智能中為關(guān)鍵的推理能力,這也正是多模態(tài)技術(shù)在未來(lái)亟需突破的一個(gè)瓶頸。
多模態(tài)研究歷史不長(cháng),至今沒(méi)有顛覆性的成果出現,要想獲得進(jìn)一步發(fā)展,多模態(tài)技術(shù)研究將來(lái)要對準哪些突破口?
對此,姚霆也有自己的看法,“目前大部分多模態(tài)技術(shù)走的還是深度學(xué)習中拿大量的已標注多模態(tài)數據來(lái)喂深度模型的老路子,即數據驅動(dòng)模型的感知計算,這就導致訓練得到的多模態(tài)模型不具備人腦一樣的推理能力,其在真實(shí)場(chǎng)景下的泛化能力也大大受限。如果能在現有的多模態(tài)技術(shù)中融入專(zhuān)家、常識知識(例如結合知識圖譜),則能利用數據與知識的聯(lián)合驅動(dòng)讓多模態(tài)技術(shù)更為“智能”。同時(shí),也可以在多模態(tài)模型訓練的過(guò)程中引入多種自監督的推理型任務(wù),“強迫”多模態(tài)模型進(jìn)行推理和思考,這也能在一定程度上讓機器去慢慢學(xué)會(huì )推理!
此外,姚霆還指出,當前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習,整個(gè)訓練和測試的過(guò)程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開(kāi)放動(dòng)態(tài)的應用場(chǎng)景存在一定的差異性。為了彌補這一差異,我們可以在訓練過(guò)程不斷結合真實(shí)世界數據的回流來(lái)持續升級多媒體模型,甚至于可以利用元學(xué)習的方式來(lái)讓模型自己學(xué)會(huì )如何認知新的多模態(tài)知識,實(shí)現適用于開(kāi)放動(dòng)態(tài)場(chǎng)景并具備終生學(xué)習能力的多模態(tài)模型。
![]() |
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |