首頁(yè)
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁(yè) > 新聞資訊 > 機(jī)器人開(kāi)發(fā) > 【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何?  
 

【深度】未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)為何?

來(lái)源:圖靈人工智能      編輯:創(chuàng)澤      時(shí)間:2020/5/28      主題:其他   [加盟]
計(jì)算機(jī)視覺(jué)是人工智能的“眼睛”,是感知客觀世界的核心技術(shù)。進(jìn)入21世紀(jì)以來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域蓬勃發(fā)展,各種理論與方法大量涌現(xiàn),并在多個(gè)核心問(wèn)題上取得了令人矚目的成果。為了進(jìn)一步推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,CCF-CV組織了RACV 2019,邀請(qǐng)多位計(jì)算機(jī)視覺(jué)領(lǐng)域資深專家對(duì)相關(guān)主題的發(fā)展現(xiàn)狀和未來(lái)趨勢(shì)進(jìn)行研討。

在“未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)”的專題中,各位專家從計(jì)算機(jī)視覺(jué)發(fā)展歷程、現(xiàn)有研究局限性、未來(lái)研究方向以及視覺(jué)研究范式等多方面展開(kāi)了深入的探討。

主題組織者:林宙辰,劉日升,闞美娜

討論時(shí)間:2019年9月27日

發(fā)言嘉賓:查紅彬,陳熙霖,盧湖川,劉燁斌,章國(guó)鋒

參與討論嘉賓[發(fā)言順序]:謝曉華,林宙辰,林倞,山世光,胡占義,紀(jì)榮嶸,王亦洲,王井東,王濤,楊睿剛,鄭偉詩(shī),賈云得,魯繼文,王亮

我們將研討內(nèi)容按專題實(shí)錄整理,盡最大可能以原汁原味的形式還原觀點(diǎn)爭(zhēng)鳴現(xiàn)場(chǎng),希望有助于激發(fā)頭腦風(fēng)暴,產(chǎn)生一系列啟發(fā)性的觀點(diǎn)和思想,推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域持續(xù)發(fā)展。

一、開(kāi)場(chǎng):山世光、林宙辰

山世光:上次計(jì)算機(jī)視覺(jué)專委會(huì)常委會(huì)上,在譚院士的倡議下這次RACV嘗試一下相對(duì)比較小規(guī)模的、以討論未來(lái)與問(wèn)題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人,都不是講自己的或已經(jīng)做的工作,而是圍繞著每一個(gè)主題講一講自己的觀點(diǎn)和看法。大家在發(fā)言的時(shí)候可以無(wú)所顧忌,可以爭(zhēng)論。我們會(huì)有記錄和錄音,但最后的文字會(huì)經(jīng)過(guò)大家的確認(rèn)之后才發(fā)布。

林宙辰: RACV是希望大家有一些深入的研討,互相挑戰(zhàn),以達(dá)到深入討論的目的。第一個(gè)主題是未來(lái)5-10年CV的發(fā)展趨勢(shì)。希望我們這次研討會(huì)尤其是CV發(fā)展趨勢(shì)這個(gè)主題能夠類似達(dá)特茅斯會(huì)議,產(chǎn)生一些新的思想。

二、嘉賓主題發(fā)言

1. 查紅彬

未來(lái)五年或十年CV的發(fā)展趨勢(shì)是很難預(yù)測(cè)的,有時(shí)候想的太多,反而容易跑偏。所以,今天我主要從自己認(rèn)識(shí)的角度說(shuō)說(shuō)后面我們?cè)撟鲂┦裁礃拥氖虑椤?

首先,說(shuō)說(shuō)什么叫計(jì)算機(jī)視覺(jué)?我這里給了一個(gè)比較嚴(yán)格的定義,即使用計(jì)算機(jī)技術(shù)來(lái)模擬、仿真與實(shí)現(xiàn)生物的視覺(jué)功能。但這個(gè)定義并沒(méi)有將事情完全講清楚,這里把計(jì)算機(jī)和視覺(jué)兩個(gè)概念揉到了一起,但到底什么叫計(jì)算機(jī)、什么叫視覺(jué)并沒(méi)有說(shuō)。什么叫計(jì)算機(jī)大家是能夠公認(rèn)的。但什么叫視覺(jué),其實(shí)在計(jì)算機(jī)視覺(jué)領(lǐng)域里還沒(méi)有一個(gè)大家都認(rèn)可的定義。

我們不妨先看看現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域里有哪些研究?jī)?nèi)容。先來(lái)看看今年ICCV各個(gè)分會(huì)的關(guān)鍵詞,其中最大的幾個(gè)領(lǐng)域是deep learning;recognition;segmentation, grouping and shape等。這些領(lǐng)域是視覺(jué)嗎?說(shuō)是圖像處理、分析與理解也能說(shuō)的通。關(guān)鍵問(wèn)題在于,我們講來(lái)講去到底是不是真的在做視覺(jué)?這點(diǎn)有必要再想想。

舉個(gè)例子--人臉識(shí)別:人臉識(shí)別現(xiàn)在能識(shí)別大量的人臉圖像與視頻,幾十萬(wàn)、幾百萬(wàn)人都能夠識(shí)別。它是用大數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)達(dá)到目的的,而且是離線學(xué)習(xí)的。但識(shí)別算法在實(shí)際應(yīng)用中對(duì)光照、遮擋等的魯棒性比較差。我們回過(guò)頭看看人的人臉識(shí)別有些什么樣的功能呢?我們?nèi)俗R(shí)別人臉的功能很強(qiáng),但只能識(shí)別很少數(shù)量的人臉,如親戚、朋友、同事等,超過(guò)一定范圍之后人是很難識(shí)別出來(lái)陌生人的人臉的,我們能看到有差別但分不清誰(shuí)是誰(shuí)。

第二個(gè),人是在生活情景當(dāng)中進(jìn)行主動(dòng)性的樣本學(xué)習(xí)。我們之所以能夠認(rèn)識(shí)親屬,是因?yàn)槲覀冊(cè)谌粘I町?dāng)中與他們生活在一起,建立了各種各樣的關(guān)系。我們主動(dòng)地用樣本來(lái)學(xué),利用了不同層次的特征。所以,盡管我們識(shí)別人臉的數(shù)量少,但是我們對(duì)抗干擾的能力很強(qiáng)。所以我覺(jué)得這是人的人臉識(shí)別和現(xiàn)在機(jī)器的人臉識(shí)別之間的差別。也就是,人的視覺(jué)中的人臉識(shí)別有它明顯的特點(diǎn),它能很好地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的視覺(jué)處理任務(wù)。

那么現(xiàn)實(shí)環(huán)境中的視覺(jué)處理應(yīng)該考慮哪些因素呢?我們有計(jì)算機(jī)、機(jī)器人這些智能機(jī)器,同時(shí)還有其它兩個(gè)關(guān)鍵的部分。第一個(gè)部分是要通過(guò)視覺(jué)這個(gè)接口來(lái)同外部世界建立聯(lián)系,同環(huán)境進(jìn)行互動(dòng);第二個(gè)是我們講視覺(jué)的時(shí)候,生物的感知機(jī)理給我們提供了很多依據(jù)。這其中,我們要應(yīng)對(duì)的是現(xiàn)實(shí)環(huán)境的開(kāi)放性,以及三維世界的復(fù)雜性,我們要面對(duì)場(chǎng)景當(dāng)中很多動(dòng)態(tài)的變化以及層次性結(jié)構(gòu)的多樣性。

另一方面,生物的感知機(jī)理有什么呢?它是一個(gè)學(xué)習(xí)過(guò)程,但這個(gè)學(xué)習(xí)是柔性的,并不是我們現(xiàn)在這樣的離線學(xué)習(xí)并固定的方式。我們現(xiàn)在的機(jī)器學(xué)習(xí)用起來(lái)就只是測(cè)試。但我們?nèi)说膶W(xué)習(xí)中測(cè)試和學(xué)習(xí)過(guò)程并不是嚴(yán)格可分的,它有結(jié)構(gòu)上的柔性,也需要層次化的處理。此外,它有主動(dòng)性,能夠根據(jù)它的目的和任務(wù)主動(dòng)地進(jìn)行學(xué)習(xí)。同時(shí),我們?nèi)粘I町?dāng)中所需要的是一種時(shí)序數(shù)據(jù)的處理,是一種增量型的處理過(guò)程。從這樣的角度來(lái)看,我們將來(lái)的計(jì)算機(jī)視覺(jué)研究需要考慮把真實(shí)環(huán)境的特點(diǎn)與生物的感知機(jī)理融合進(jìn)來(lái)。這樣就會(huì)更接近“視覺(jué)”這個(gè)詞本來(lái)的意義。

那這其中有哪些事情我們可以去考慮呢?

首先是學(xué)習(xí)的問(wèn)題。現(xiàn)在,深度學(xué)習(xí)用的很多,但它只是我們?nèi)说哪J阶R(shí)別當(dāng)中的一部分功能,對(duì)于視覺(jué)研究來(lái)說(shuō),還有很大的挖掘空間。也就是說(shuō),我們考慮計(jì)算機(jī)視覺(jué)中的機(jī)器學(xué)習(xí)的時(shí)候,不僅僅是深度,還要把網(wǎng)絡(luò)的寬度、結(jié)構(gòu)可重構(gòu)性與結(jié)構(gòu)柔性結(jié)合起來(lái)。我們要把不同的結(jié)構(gòu)層次研究明白,同時(shí)把不同模塊之間的連接關(guān)系考慮到網(wǎng)絡(luò)里來(lái)。我們?nèi)说拇竽X就是這樣的,大腦從視覺(jué)的低層特征抽取往上,它具有很多不同的功能性結(jié)構(gòu)在里面,而且這個(gè)功能性結(jié)構(gòu)是可塑的。

其次,除了通常講的識(shí)別功能之外,我們要把記憶、注意等一些認(rèn)知機(jī)制通過(guò)學(xué)習(xí)的方式實(shí)現(xiàn)出來(lái)。目前已經(jīng)有一些這方面的工作了。將來(lái)這些機(jī)制在計(jì)算機(jī)視覺(jué)里面可能會(huì)作為學(xué)習(xí)的一個(gè)核心目標(biāo),融到我們現(xiàn)在的整個(gè)體系當(dāng)中。

另外,還應(yīng)考慮通過(guò)環(huán)境的交互這種方式來(lái)選擇需要的樣本進(jìn)行自主學(xué)習(xí)等。所以,這種學(xué)習(xí)方式上的結(jié)構(gòu)柔性應(yīng)該是我們追求的一個(gè)目標(biāo)。

另外一點(diǎn),我們現(xiàn)在的計(jì)算機(jī)視覺(jué)還比較缺乏對(duì)動(dòng)態(tài)場(chǎng)景的處理。我們現(xiàn)在很多工作是在靜態(tài)場(chǎng)景里面,像人臉識(shí)別也是在靜態(tài)場(chǎng)景里面來(lái)做。盡管有時(shí)候我們用視頻來(lái)做,但并沒(méi)有深入考慮整個(gè)場(chǎng)景的動(dòng)態(tài)特性。現(xiàn)在動(dòng)態(tài)目標(biāo)的跟蹤、檢測(cè)、分析、行為的識(shí)別與理解等這些工作都有在做,但還沒(méi)有上升到一個(gè)系統(tǒng)化的水平。我們也應(yīng)該把更多的注意力放到像移動(dòng)傳感器的定位、三維動(dòng)態(tài)場(chǎng)景的重建與理解等一些事情上面來(lái)。所以,我認(rèn)為動(dòng)態(tài)視覺(jué)是未來(lái)的另一個(gè)重要研究方向。

還有一個(gè)是主動(dòng)視覺(jué)。主動(dòng)視覺(jué)是把感知與運(yùn)動(dòng)、控制結(jié)合起來(lái),形成一個(gè)閉環(huán)。計(jì)算機(jī)視覺(jué)里很早就有一個(gè)研究課題,叫視覺(jué)伺服,是想把控制和感知很好地結(jié)合起來(lái)。我們的感知一部分是為任務(wù)目的服務(wù),另外一部分是為感知本身服務(wù),即從一種主動(dòng)控制的角度來(lái)考慮感知功能的實(shí)現(xiàn),以提高感知系統(tǒng)的自適應(yīng)能力,遷移學(xué)習(xí)、無(wú)間斷學(xué)習(xí)或終身學(xué)習(xí)等都可以應(yīng)用進(jìn)來(lái)。此外,還應(yīng)當(dāng)考慮常識(shí)、意識(shí)、動(dòng)機(jī)以及它們之間的關(guān)系。也就是說(shuō),我們要把視覺(jué)上升到有意識(shí)的、可控制的一個(gè)過(guò)程。

如果我們把前面提到的時(shí)序與動(dòng)態(tài)處理等結(jié)合起來(lái)之后,應(yīng)該更多考慮在線學(xué)習(xí)。我們不應(yīng)該全部依賴目前這種離線學(xué)習(xí)、僅使用標(biāo)注數(shù)據(jù),而是應(yīng)該在動(dòng)態(tài)的環(huán)境當(dāng)中,根據(jù)運(yùn)動(dòng)與動(dòng)態(tài)數(shù)據(jù)流本身的特性來(lái)做預(yù)測(cè)與學(xué)習(xí)。這樣可以把前面提到的記憶與注意力等一些機(jī)制結(jié)合起來(lái),最終實(shí)現(xiàn)一種無(wú)監(jiān)督的在線學(xué)習(xí)系統(tǒng)。這樣一來(lái)就能把現(xiàn)實(shí)環(huán)境中的一些特點(diǎn)與變化考慮進(jìn)來(lái),形成一套新的理論。而這個(gè)理論,跟現(xiàn)在的深度學(xué)習(xí)、圖像處理分析與理解等相比,會(huì)更接近我們講的視覺(jué)這個(gè)概念。

2. 陳熙霖

預(yù)測(cè)可見(jiàn)未來(lái)是一件風(fēng)險(xiǎn)極大的事,對(duì)于這個(gè)命題作文我只能說(shuō)個(gè)人的觀點(diǎn)。我更愿意從歷史的角度來(lái)看這件事情。

首先,我們回顧一下計(jì)算機(jī)視覺(jué)的發(fā)展歷程。我把過(guò)去幾十年的過(guò)程分為以下幾個(gè)階段。第一個(gè)階段我稱之為啟蒙階段,標(biāo)志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個(gè)本科生做的手眼系統(tǒng)。這個(gè)階段對(duì)計(jì)算機(jī)視覺(jué)的估計(jì)過(guò)于樂(lè)觀,認(rèn)為這事太容易了,很快就可以解決,正如S. Papert的報(bào)告中寫到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現(xiàn)這個(gè)問(wèn)題遠(yuǎn)比想象的困難。

從七十年代初期開(kāi)始進(jìn)入第二個(gè)階段,我稱之為重構(gòu)主義,這是以D. Marr的視覺(jué)框架為代表的。這個(gè)框架在Marr的總結(jié)性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對(duì)象恢復(fù)到三維表達(dá)。其基本過(guò)程是:圖像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(dá)(2.5D skecth)à以觀察對(duì)象為中心的3D表達(dá)。這個(gè)過(guò)程看起來(lái)很漂亮,但卻存在兩方面的問(wèn)題——首先是這樣的過(guò)程是否是必須的,其次是如果都試圖恢復(fù)三維,這樣不論對(duì)感知測(cè)量還是計(jì)算是否現(xiàn)實(shí)。我個(gè)人認(rèn)為三維在計(jì)算機(jī)視覺(jué)中的作用也是有限的。這個(gè)階段的工作也導(dǎo)致了上世紀(jì)90年代初對(duì)計(jì)算機(jī)視覺(jué)研究的反思和爭(zhēng)論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。

第三個(gè)階段我稱之為分類主義,反正只要能識(shí)別就好,不管白貓黑貓抓住老鼠就好。人臉識(shí)別、各種多類物體識(shí)別等都在這個(gè)階段大行其道,研究者們采用各種各樣的方法,從研究各類不變算子(如SIFT、HOG等)到分類方法(如SVM、AdaBoost等)。這個(gè)階段推進(jìn)了識(shí)別問(wèn)題的解決,但似乎總差最后一公里。

最近的一個(gè)階段我稱之為拼力氣比規(guī)模階段,其核心是聯(lián)結(jié)主義的復(fù)興,這得益于數(shù)據(jù)和計(jì)算資源的廉價(jià)化。這類方法在各種分類問(wèn)題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西,過(guò)去我們都在講找一個(gè)美妙的辦法。如同我們希望瞄準(zhǔn)目標(biāo),以最小的代價(jià)擊中目標(biāo)。現(xiàn)在這類方法更像是炮決,今天我們似乎進(jìn)入了這樣的炮決時(shí)代。

那么未來(lái)會(huì)是怎么樣的?從前面的發(fā)展歷史來(lái)看,計(jì)算機(jī)視覺(jué)經(jīng)過(guò)幾十年的發(fā)展進(jìn)入了野蠻人的時(shí)代。什么叫進(jìn)入野蠻人的時(shí)代了?今天大家說(shuō)人工智能熱,可幾乎所有拿來(lái)驗(yàn)證人工智能的例子都是和計(jì)算機(jī)視覺(jué)相關(guān)的。而今天很多所謂的計(jì)算機(jī)視覺(jué)研究就是拿深度學(xué)習(xí)訓(xùn)練一個(gè)模型,所以說(shuō)這是個(gè)野蠻人的時(shí)代。那么野蠻人時(shí)代有什么問(wèn)題?

我們看上一個(gè)和野蠻人時(shí)代相關(guān)的歷史——羅馬帝國(guó)。羅馬帝國(guó)是被野蠻人消滅的,羅馬(更具體的是指西羅馬)從建國(guó)到被滅亡,中間大概有500年。而且西羅馬被滅了以后,還有一個(gè)叫神圣羅馬帝國(guó),按照尤瓦爾·赫拉利《人類簡(jiǎn)史》上的說(shuō)法后者既不神圣也不是帝國(guó)。當(dāng)年羅馬帝國(guó)也是所有的東西都講究漂亮美麗——斗獸場(chǎng)、引水渠以及打到哪修到哪的條條大路(通羅馬)。計(jì)算機(jī)視覺(jué)早年的研究者也是天天追求漂亮,要數(shù)學(xué)上美、物理上美等等,就和當(dāng)年羅馬帝國(guó)一樣。現(xiàn)在也真的和羅馬帝國(guó)一樣了,我們遇到了蠻族人。

這個(gè)蠻族人是誰(shuí)?就是深度學(xué)習(xí),和過(guò)去羅馬人關(guān)心文明,蠻族人關(guān)心財(cái)富一樣,在計(jì)算機(jī)視覺(jué)的研究上,我們也面臨著如何選擇的問(wèn)題。當(dāng)然,歷史也會(huì)驚人地相似,蠻族人占領(lǐng)羅馬以后也不是什么都沒(méi)干。后來(lái)他們建立神圣羅馬帝國(guó),到后來(lái)導(dǎo)致文藝復(fù)興。今天計(jì)算機(jī)視覺(jué)的研究在我們看來(lái)也需要一個(gè)文藝復(fù)興。

什么是我們的文藝復(fù)興?我們當(dāng)下的計(jì)算機(jī)視覺(jué)就處在這么一個(gè)需要思考的時(shí)期。而不是一味地倒向深度學(xué)習(xí),F(xiàn)在有些研究走向比蠻力的階段,就跟打仗比坦克、大炮的數(shù)量一樣,靠拼GPU的規(guī)模和計(jì)算能力。下一步,我們需要往哪里走?這是現(xiàn)在這個(gè)野蠻人時(shí)代需要思考的。

預(yù)測(cè)未來(lái)五到十年這是一個(gè)風(fēng)險(xiǎn)極大的問(wèn)題。所以我只能通過(guò)前面講的歷史和我的一點(diǎn)思考談?wù)剬?duì)未來(lái)的一些可能。

首先,一個(gè)值得關(guān)注的未來(lái)趨勢(shì)是從識(shí)別到理解,套用古人的說(shuō)法就是從知其然到知其所以然。過(guò)去十多年計(jì)算機(jī)視覺(jué)在識(shí)別方面取得了顯著的進(jìn)展,但是現(xiàn)在的識(shí)別遠(yuǎn)遠(yuǎn)不是我們所期望的識(shí)別。例如你教它識(shí)別一個(gè)杯子,它不會(huì)想到杯子和水有任何關(guān)系,不會(huì)想到杯子有任何的其他功能,因而完全是填鴨式的。今天的識(shí)別遠(yuǎn)遠(yuǎn)不是可解釋的。談到可解釋,我認(rèn)為在計(jì)算機(jī)視覺(jué)領(lǐng)域的可解釋應(yīng)該是對(duì)結(jié)論的解釋,而不是解釋網(wǎng)絡(luò)行為,前者應(yīng)該更有價(jià)值。那么要解釋這一切靠什么?應(yīng)該是靠某種形式的邏輯關(guān)系,這種關(guān)系可以通過(guò)語(yǔ)言表達(dá),語(yǔ)言應(yīng)該起到橋接作用。這里的語(yǔ)言和自然語(yǔ)言有關(guān)系也有區(qū)別,可以是獨(dú)立于我們自然語(yǔ)言的,是機(jī)器自己對(duì)世界理解的語(yǔ)言。換句話說(shuō),我們把世界的物體重新編碼起來(lái),然后把物體和物體,物體和環(huán)境的聯(lián)系建立起來(lái)就好。有了這樣的從基本屬性到對(duì)象直至環(huán)境的關(guān)系,就有可能實(shí)現(xiàn)從知其然到知其所以然。所以我覺(jué)得未來(lái)最重要的趨勢(shì)就是從無(wú)需知識(shí)支撐的識(shí)別到需要知識(shí)支撐的理解,或者說(shuō)從單純的Bottom-up的識(shí)別到需要知識(shí)啟發(fā)的具有反饋、推理的更廣義的計(jì)算機(jī)視覺(jué),這也是我自己這幾年特別關(guān)注的研究方向。

其次,值得關(guān)注的一個(gè)趨勢(shì)就是對(duì)空間感的有限需求。關(guān)于為什么動(dòng)物需要視覺(jué),主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識(shí)別能力;其次是保證不會(huì)因?yàn)閷?duì)空間的錯(cuò)誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺(jué)最重要的就是解決這兩件事情。那么為什么講對(duì)空間感的有限需求?我們的三維空間感,只是在相對(duì)比較近的時(shí)候,才需要很精確。在距離稍遠(yuǎn)一點(diǎn)的情況下,大多數(shù)時(shí)候其實(shí)不關(guān)心精確的空間位置,而可能關(guān)心一些如遮擋、順序等關(guān)系。另外,如果你試圖把一切對(duì)象都用三維來(lái)表示的話,不管是從計(jì)算的代價(jià)還是從可實(shí)現(xiàn)性來(lái)講都很難。試想恢復(fù)一個(gè)一米遠(yuǎn)處的對(duì)象,可以做得很精確,而對(duì)于一百米或者更遠(yuǎn)的對(duì)象,如果希望保持相同的量化精度,對(duì)深度值的量化就會(huì)成問(wèn)題。這就是說(shuō)的有限需求的含義,但是我覺(jué)得這件事情一定很重要,特別是在較近的時(shí)候。

第三個(gè)值得關(guān)注的趨勢(shì)就是不同模態(tài)的結(jié)合,即所謂聰明合一,人的聰明離不開(kāi)耳聰目明。這里的模態(tài)不僅僅限于視聽(tīng)覺(jué),還可以包括不同的二維、三維的視覺(jué)傳感信息等。生物的感知從來(lái)不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個(gè)問(wèn)題是不同模態(tài)間的對(duì)齊與因果問(wèn)題。如果同時(shí)存在從多個(gè)模態(tài)獲取的信息,時(shí)空對(duì)齊是非常重要的挑戰(zhàn)。與時(shí)空對(duì)齊相關(guān)的另一個(gè)問(wèn)題是因果關(guān)系,雖然我們希望獲得因果,但絕大多數(shù)時(shí)候得到的僅僅是關(guān)聯(lián),兩個(gè)現(xiàn)象之間可以是第三個(gè)因素導(dǎo)致的,如同云層間放電導(dǎo)致電閃和雷鳴,這兩件事是關(guān)聯(lián)的,但絕不是電閃導(dǎo)致雷鳴。在絕大多數(shù)情況下我更傾向于去探索關(guān)聯(lián)而不是因果,特別是在數(shù)據(jù)驅(qū)動(dòng)的模型下,離開(kāi)機(jī)理試圖發(fā)現(xiàn)因果是困難的。但在未來(lái)的計(jì)算機(jī)視覺(jué)研究中不同模態(tài)的結(jié)合和關(guān)聯(lián)是一個(gè)重要的趨勢(shì)。

第四個(gè)需要關(guān)注的趨勢(shì)是主動(dòng)視覺(jué),所謂主動(dòng)就是在視覺(jué)系統(tǒng)中納入了反饋的機(jī)制,從而具有選擇的可能。視覺(jué)如果僅僅以獨(dú)立的形式存在,則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數(shù)規(guī)模的增加,生物視覺(jué)由于有了主動(dòng)選擇的機(jī)制,因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當(dāng)計(jì)算機(jī)視覺(jué)的研究不僅僅是為了驗(yàn)證某個(gè)單一的功能時(shí),上述生物視覺(jué)的平衡一樣需要在計(jì)算機(jī)視覺(jué)系統(tǒng)中考慮,實(shí)現(xiàn)從感知、響應(yīng)到行為的閉環(huán)。從被動(dòng)感知走到主動(dòng)的感知,這是從算法到系統(tǒng)的一個(gè)重要趨勢(shì)。將視覺(jué)的“看”與“響應(yīng)”和“行為”構(gòu)成廣義的計(jì)算機(jī)視覺(jué)系統(tǒng),通過(guò)有主動(dòng)的“行為”進(jìn)行探索,實(shí)現(xiàn)“魂”和“體”的合一。這對(duì)視覺(jué)應(yīng)用系統(tǒng)是至關(guān)重要的——例如一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的服務(wù)機(jī)器人,可以通過(guò)在新環(huán)境中的主動(dòng)探索,實(shí)現(xiàn)整體智能的提升。所以我認(rèn)為這是未來(lái)視覺(jué)應(yīng)用系統(tǒng)的重要趨勢(shì)。

我沒(méi)有講具體的算法哪些是重要的。我想說(shuō)一件事情,就是關(guān)于深度學(xué)習(xí),我覺(jué)得未來(lái)深度學(xué)習(xí)就會(huì)像今天計(jì)算機(jī)里看到的寄存器、觸發(fā)器、存儲(chǔ)器乃至CPU一樣,成為基本構(gòu)件。關(guān)于趨勢(shì),延續(xù)前面的劃分,計(jì)算機(jī)視覺(jué)將進(jìn)入一個(gè)知識(shí)為中心的階段。隨著深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺(jué)系統(tǒng)將不僅處理單一任務(wù)。在復(fù)雜視覺(jué)任務(wù)的處理中,主動(dòng)視覺(jué)將起到重要的作用。通過(guò)主動(dòng)的響應(yīng)和探索,構(gòu)建并完善視覺(jué)系統(tǒng)對(duì)觀察世界的關(guān)聯(lián)(因果)關(guān)系并借此理解空間對(duì)象的時(shí)空關(guān)系、物理屬性等。這算是我對(duì)今天討論問(wèn)題的個(gè)人預(yù)測(cè)。

3. 盧湖川

剛才前面兩位老師已經(jīng)提綱挈領(lǐng)的提了一些觀點(diǎn),我可能有一些和他們是相似的。

從理論方面來(lái)講,我覺(jué)得目前深度學(xué)習(xí)的理論好像有點(diǎn)走不太動(dòng)了。具體來(lái)說(shuō),從Backbone的發(fā)展來(lái)看,網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),基本上沒(méi)有更多新的內(nèi)容。另一方面,某些領(lǐng)域還是比較熱門的,發(fā)展比較快。比如說(shuō)自然語(yǔ)言處理(NLP)和視覺(jué)的結(jié)合,這幾年取得了很多進(jìn)展,特別是聊天機(jī)器人等相關(guān)的實(shí)際需求,驅(qū)動(dòng)著VQA等技術(shù)都有較大的進(jìn)展。尤其是基于圖的方法和視覺(jué)結(jié)合在一起可能會(huì)越來(lái)越熱。

以知識(shí)圖譜為例,如果知道一些先驗(yàn)知識(shí),知道一些知識(shí)圖譜的話,可能會(huì)更好的去理解圖像或者視頻。例如,給定一幅圖像,里面有一只貓和一個(gè)魚缸,貓用爪子抱住了魚缸,還盯著魚缸里面的魚,如果我們知道知識(shí)圖譜里貓和魚的關(guān)系, 我們就能很好的描述出貓想吃魚缸里的魚,從而更好的幫助視覺(jué)理解圖像或視頻里目標(biāo)和目標(biāo)之間的關(guān)系。所以說(shuō),我覺(jué)得基于圖或圖譜的方法和視覺(jué)結(jié)合在一起未來(lái)幾年會(huì)有更大的發(fā)展。

第二方面,我覺(jué)得三維視覺(jué)會(huì)繼續(xù)快速發(fā)展。從前兩年開(kāi)始冒頭,到現(xiàn)在已經(jīng)較為火爆,不僅僅局限于三維場(chǎng)景重構(gòu)等領(lǐng)域,最近基于三維視覺(jué)的檢測(cè)與分割等都有一些優(yōu)秀的工作涌現(xiàn)。隨著基于各種各樣的嵌入式設(shè)備和手機(jī)端的需求,像華為手機(jī)已經(jīng)有三個(gè)背面的攝像頭,甚至多個(gè)攝像頭(它的三個(gè)攝像頭的定義,一個(gè)是超廣角的,一個(gè)是廣角的,另外一個(gè)是高精度的攝像頭,不同的分辨率,可以更多的去模仿人的視覺(jué)方式)。由于人觀測(cè)世界本身是三維的,所以移動(dòng)端的這種大量的應(yīng)用會(huì)牽引著三維視覺(jué)在這方面越來(lái)越走向更深入的發(fā)展。

第三方面,最初我們提到深度學(xué)習(xí)時(shí),通常都會(huì)說(shuō)手工設(shè)計(jì)的特征(handcrafted feature)有各種各樣的不好,而深度學(xué)習(xí)是一個(gè)端到端的網(wǎng)絡(luò)。實(shí)際上,深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)也是手工設(shè)計(jì)的(handcrafted)。目前,網(wǎng)絡(luò)結(jié)構(gòu)搜索NAS興起之后,我覺(jué)得在這方面可能會(huì)有更多的一些改善,能夠把一些常規(guī)的操作,包括一些常規(guī)的模塊都融入進(jìn)去,來(lái)不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)而不是手工設(shè)計(jì)(handcrafted design)。我覺(jué)得未來(lái)幾年在這方面,甚至包括網(wǎng)絡(luò)結(jié)構(gòu)的壓縮和裁剪方面都會(huì)有更多的進(jìn)步。

第四方面,深度學(xué)習(xí)興起之后,我們看到誕生了一大堆的數(shù)據(jù)集,并且都是有g(shù)round truth標(biāo)注的數(shù)據(jù),在其驅(qū)動(dòng)下,深度網(wǎng)絡(luò)達(dá)到了一個(gè)比較好的性能,目前絕大多數(shù)的數(shù)據(jù)集在性能方面基本上也趨于飽和了,但是距離實(shí)際問(wèn)題仍然有較大的距離。另一方面,人對(duì)世界的認(rèn)知基本都是小樣本學(xué)習(xí)的結(jié)果,和目前的大數(shù)據(jù)驅(qū)動(dòng)的模式不太一樣。所以能否將當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的方式和人參與的方式結(jié)合起來(lái)?現(xiàn)在也有很多這樣的論文來(lái)研究人主動(dòng)參與的或者是human in the loop的學(xué)習(xí)方式,可以把人對(duì)ground truth的主動(dòng)標(biāo)記結(jié)合起來(lái),引導(dǎo)快速的學(xué)習(xí),甚至把性能提高到一個(gè)更高的高度。

第五方面,視頻理解在前幾年開(kāi)始有初步的發(fā)展,特別是到這幾年有更多的需求和深入的趨勢(shì)。因?yàn)楝F(xiàn)在基于圖像的所有任務(wù)做到一定程度之后可能都做不動(dòng)了,或者說(shuō)沒(méi)有更多的花樣了,那么對(duì)視頻的各種理解越來(lái)越多,包括視頻摘要、視頻場(chǎng)景分類、廣告識(shí)別、臺(tái)標(biāo)識(shí)別等等,很多這方面的應(yīng)用,我覺(jué)得未來(lái)幾年會(huì)有更長(zhǎng)足的發(fā)展。

我覺(jué)得在主題(topic)方面,未來(lái)會(huì)有更多的發(fā)展領(lǐng)域。隨著剛才陳老師說(shuō)到野蠻人的時(shí)代來(lái)了,大家參與視覺(jué)研究的熱情很高,不光是學(xué)術(shù)界,產(chǎn)業(yè)界對(duì)這種需求也是非常巨大的。因此我覺(jué)得目前深度學(xué)習(xí)領(lǐng)域,視覺(jué)會(huì)在各個(gè)行業(yè)縱深發(fā)展。

舉個(gè)例子,這兩天有一個(gè)公司提出這樣的一個(gè)需求,即鞋印踩上去之后,希望能識(shí)別是哪個(gè)犯罪嫌疑人來(lái)踩的,這個(gè)就是足跡識(shí)別。進(jìn)一步,他們想通過(guò)這個(gè)足跡來(lái)判斷這個(gè)鞋的鞋面是什么樣的,是什么牌子的。然后通過(guò)這些線索進(jìn)而去庫(kù)里搜索比對(duì),搜索完了之后,再去視頻里面去找犯罪嫌疑人,即穿這種鞋的人到底是誰(shuí)。這個(gè)過(guò)程中,一步一步的從源頭開(kāi)始到后面,形成了一系列的視覺(jué)問(wèn)題,行業(yè)的這種縱深發(fā)展需求是無(wú)限巨大的。

視覺(jué)里面還有很多之前沒(méi)有想到的事情在不斷進(jìn)步,兩天前我參加了工業(yè)機(jī)器人展,看到有一個(gè)撿包裹的機(jī)器人。我們都知道快遞小哥要送了一大堆包裹,各種各樣的包裹都有,能否在包裹車?yán)瓉?lái)一車包裹后,讓機(jī)器人去分類呢?我在展會(huì)上看到就有這么個(gè)機(jī)器人,它會(huì)自動(dòng)的去識(shí)別是什么樣的包裹,而且知道它的三維的曲面是怎么樣,因?yàn)榘诺慕嵌榷纪耆煌,它?huì)調(diào)整機(jī)械臂,適應(yīng)包裹的三維曲面的法線方向,去吸附它。我感覺(jué)在不同行業(yè)實(shí)際需求下,像分割、三維建模等視覺(jué)技術(shù)都會(huì)快速在各個(gè)行業(yè)里得到深入的發(fā)展。

另外,我覺(jué)得在醫(yī)療圖像方面也會(huì)有很大的進(jìn)展。醫(yī)療圖像現(xiàn)在更多的是各個(gè)疾病的檢測(cè)。昨天跟一個(gè)醫(yī)療單位在一起交流,他們提供了一個(gè)很大的平臺(tái),它的最終目標(biāo)是通過(guò)病人的不同模態(tài)的信息,來(lái)最后綜合判斷病人到底是什么樣的病。不僅僅是關(guān)注醫(yī)學(xué)影像信息的,還有一些其他的一些檢查結(jié)果,其實(shí)是一個(gè)跨模態(tài)的融合,包括圖像標(biāo)注、病案標(biāo)注等等,他們都使得醫(yī)療圖像未來(lái)和視覺(jué)的結(jié)合會(huì)越來(lái)越緊密。

目前5G不光是速度快容量大,它其實(shí)給計(jì)算機(jī)視覺(jué)AI帶來(lái)了一個(gè)更廣闊的前景,特別是無(wú)人車方面,剛才幾位也提到了三維的地圖等。跟中國(guó)移動(dòng)交流了之后,發(fā)現(xiàn)他們的高精度地圖,可以通過(guò)5G帶寬實(shí)時(shí)傳輸,是可以看到馬路崖子這種厘米級(jí)的精細(xì)度。所以我覺(jué)得5G+AI會(huì)為我們視覺(jué)相關(guān)領(lǐng)域的發(fā)展帶來(lái)巨大的機(jī)會(huì)。以上就是我對(duì)未來(lái)5-10年視覺(jué)發(fā)展趨勢(shì)的一些理解。 

4. 劉燁斌

我主要圍繞三維視覺(jué)、虛擬現(xiàn)實(shí)和人工智能的發(fā)展談點(diǎn)想法。虛擬現(xiàn)實(shí)是2016年火了之后一直發(fā)展比較平穩(wěn)。2018年習(xí)總書記有過(guò)關(guān)于虛擬現(xiàn)實(shí)的重要性的指示,虛擬現(xiàn)實(shí)技術(shù)改變了未來(lái)的交互方式,主要是這種人與環(huán)境、人與人之間的交互方式可能會(huì)變得更加自然簡(jiǎn)單,并且取代鍵盤、手機(jī)觸屏等現(xiàn)有的功能。

三維視覺(jué)的趨勢(shì)是做視覺(jué)信息的重構(gòu),提供三維的內(nèi)容給虛擬現(xiàn)實(shí),這個(gè)是三維重建,三維虛擬現(xiàn)實(shí)通過(guò)真實(shí)渲染能夠產(chǎn)生很多數(shù)據(jù),為視覺(jué)問(wèn)題服務(wù)。很多視覺(jué)問(wèn)題皆有數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)如何得來(lái),越來(lái)越多的部分時(shí)通過(guò)三維引擎來(lái)得到。計(jì)算機(jī)視覺(jué)的研究對(duì)象有好幾類,室外的、室內(nèi)的、包括人體人臉還有手,還有一些醫(yī)學(xué)和生命對(duì)象。以人為本是計(jì)算機(jī)視覺(jué)的核心,所以我主要以人作為視覺(jué)研究對(duì)象,舉例說(shuō)明計(jì)算機(jī)視覺(jué)的發(fā)展趨勢(shì)。

從人為研究對(duì)象的角度,虛擬現(xiàn)實(shí)有三個(gè)目標(biāo),也即三個(gè)I,一個(gè)Immersion,一個(gè)Interaction,一個(gè)Imagination。三者都是虛擬人(AI、機(jī)器等)和真實(shí)人之間的作用關(guān)系。首先,虛擬人在視覺(jué)外觀上是真實(shí)的,未來(lái)的虛擬人不管是真實(shí)做出來(lái)的機(jī)器人還是存儲(chǔ)在計(jì)算機(jī)中的,都有逼近真人的發(fā)展趨勢(shì),使得交互更加友好。而這個(gè)目標(biāo),本質(zhì)上就是人體的三維重建。第二個(gè)要素是人機(jī)的交互,虛擬人一定要能感知真實(shí)人的行為,包括手勢(shì)識(shí)別,行為識(shí)別,情緒等這樣的一些理解。最后,虛擬人需要對(duì)場(chǎng)景有反應(yīng),能夠智能化,他能夠根據(jù)你的行為智能地做下一步的處理,保證產(chǎn)生一個(gè)真實(shí)的虛擬人。

總體來(lái)說(shuō),虛擬現(xiàn)實(shí)的智能建模技術(shù)被列為新一代人工智能發(fā)展規(guī)劃里的八大關(guān)鍵共性技術(shù),重點(diǎn)突破虛擬對(duì)象智能的行為建模技術(shù),提升虛擬現(xiàn)實(shí)中智能對(duì)象行為的社會(huì)性、多樣性、交互逼真性,實(shí)現(xiàn)虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等技術(shù)與人工智能的有機(jī)結(jié)合和高效互動(dòng)。上述定義中的重點(diǎn)是行為建模,行為必須是接近人的智能的行為,才能有交互的逼真性等等。圍繞這個(gè)人體的建模,目前的目標(biāo)一個(gè)是要精準(zhǔn)的重建,第二是要規(guī);牟杉,第三是要便攜式(手機(jī)單圖像也能做),第四是速度足夠快,能夠響應(yīng)交互的要求,第五就是現(xiàn)在一個(gè)大的發(fā)展趨勢(shì),建模的結(jié)果含有語(yǔ)義信息,即語(yǔ)義化建模,包括服裝,人臉,頭發(fā)等。最后第六就是智能生成,即重建結(jié)果能真實(shí)動(dòng)畫展示。現(xiàn)有的三維視覺(jué)重建技術(shù)很難滿足這六個(gè)方面的要求,所以圍繞這些目標(biāo)還有很多研究需要做。

人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統(tǒng),它實(shí)現(xiàn)實(shí)時(shí)的,多相機(jī)下的人體動(dòng)態(tài)三維重建。但這個(gè)系統(tǒng)的缺點(diǎn)是,它要求具有主動(dòng)光,導(dǎo)致系統(tǒng)復(fù)雜度高,實(shí)時(shí)性和便捷性成為矛盾。實(shí)現(xiàn)實(shí)時(shí)高精度三維動(dòng)態(tài)重建,也是未來(lái)的一個(gè)學(xué)術(shù)研究趨勢(shì)。我們研制的單個(gè)深度相機(jī)實(shí)時(shí)的重建,雖然速度和便捷性都趨于完美,但精度還有待提高。單圖像人體三維重建,雖然現(xiàn)在的質(zhì)量還不算完美,但我覺(jué)得這是一個(gè)很實(shí)用的技術(shù)應(yīng)用趨勢(shì)。通過(guò)單個(gè)圖像我們就可以來(lái)簡(jiǎn)便地重建它的三維模型,未來(lái)肯定是能大放光彩的。單圖像人手動(dòng)態(tài)三維重建,通過(guò)單個(gè)RGB監(jiān)控相機(jī)就可以來(lái)實(shí)現(xiàn)實(shí)時(shí)性,可以看出三維重建輸出了語(yǔ)義信息,已經(jīng)取代了傳統(tǒng)二維計(jì)算機(jī)視覺(jué)識(shí)別問(wèn)題成為發(fā)展趨勢(shì)。

服裝產(chǎn)業(yè)占據(jù)國(guó)民生產(chǎn)總值的6%,數(shù)字化服裝是一個(gè)非常重要的計(jì)算機(jī)視覺(jué)應(yīng)用之地。這個(gè)是展示我們最新做的一些事情,通過(guò)單個(gè)視頻,可以網(wǎng)上的視頻,就能通過(guò)語(yǔ)義的建模來(lái)實(shí)現(xiàn)比較高質(zhì)量的服裝三維建模,對(duì)一些VR、AR都可以應(yīng)用,它是通過(guò)對(duì)人體和服裝的解耦,語(yǔ)義信息的加入,包括光照和紋理的解耦來(lái)實(shí)現(xiàn)。這種東西未來(lái)可以產(chǎn)生一些應(yīng)用,包括改變體型,包括增強(qiáng)現(xiàn)實(shí)的模擬,右邊就是一個(gè)互聯(lián)網(wǎng)視頻的重構(gòu),它可以改變服裝的顏色等等。我覺(jué)得這種便攜實(shí)時(shí)的三維重建的趨勢(shì)就是從低層次的三維建模,包括體素的、網(wǎng)格的,逐漸走向高層次的三維建模,包括部件級(jí)的重建、物理信息分離、感知物理動(dòng)力學(xué)、特征空間的提取。這些高維信息能夠智能地建模和生成,響應(yīng)環(huán)境,控制和預(yù)測(cè)。包括圖形學(xué)里做的一些研究,好玩的比如能讓一個(gè)人去動(dòng)的虛擬對(duì)象的這種物理的約束,包括我們自己去爬山這種增強(qiáng)現(xiàn)實(shí)的技術(shù)也會(huì)引入進(jìn)來(lái),把物理、智能響應(yīng)引入進(jìn)來(lái)。

最后再談?wù)劯袕V泛意義的一些動(dòng)態(tài)三維重建問(wèn)題。例如,醫(yī)療方面的比如外科手術(shù)的術(shù)野場(chǎng)景的三維感知,就是個(gè)非剛性復(fù)雜動(dòng)態(tài)場(chǎng)景的三維建模問(wèn)題。這是展示肝臟手術(shù)的視頻,能夠動(dòng)態(tài)跟蹤它的形狀,三維掃描的CT可以在動(dòng)態(tài)的場(chǎng)景下實(shí)時(shí)非剛性映射,輔助醫(yī)療和手術(shù)。

還有就是在生命科學(xué)領(lǐng)域的動(dòng)物行為三維重建,我覺(jué)得動(dòng)物是未來(lái)視覺(jué)的一個(gè)很大的可以應(yīng)用的點(diǎn),我們叫計(jì)算行為學(xué),也叫神經(jīng)行為學(xué)。它研究的是行為跟神經(jīng)活動(dòng)的映射關(guān)系,通過(guò)采集動(dòng)物行為數(shù)據(jù)來(lái)進(jìn)行分析。行為學(xué)上對(duì)人進(jìn)行分析非常難,因?yàn)槿说幕虿顒e非常大。但對(duì)于動(dòng)物來(lái)說(shuō),可以做到每個(gè)小鼠基因都是一樣的,像譬如在豬、猴子上也比較容易控制一些其他的差別的因素,所以對(duì)醫(yī)療,包括基因控制都會(huì)有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關(guān)的文章。

這里面其實(shí)有很多問(wèn)題,包括群體對(duì)象自然環(huán)境下的交互,非剛性的捕捉,高層語(yǔ)義檢測(cè),互遮擋三維恢復(fù),時(shí)間序列分析,有很多研究發(fā)表在Nature上。動(dòng)物行為三維重建研究趨勢(shì)就是希望動(dòng)物更加自由地在實(shí)驗(yàn)環(huán)境里去生活,被記錄,藥物干預(yù)后提早發(fā)現(xiàn)行為差別。這樣的研究還是很多的,包括可以提取維度更高的特征。我們也是在做這樣一些研究,這里面有四個(gè)小豬,有兩個(gè)是有漸凍癥的,我們通過(guò)多視點(diǎn)拍攝,希望重構(gòu)三維小豬的動(dòng)作,通過(guò)重建動(dòng)作來(lái)識(shí)別漸凍癥小豬的行為特點(diǎn),對(duì)未來(lái)的基因調(diào)控和藥物治療帶來(lái)幫助。

5. 章國(guó)鋒

幾位老師已經(jīng)從計(jì)算機(jī)視覺(jué)大的層面對(duì)未來(lái)5-10年發(fā)展趨勢(shì)做了展望,我從我熟悉的三維視覺(jué)和AR方面對(duì)未來(lái)5-10年的發(fā)展趨勢(shì)發(fā)表一下自己的看法。

我的研究方向主要是SLAM,所以我就先從SLAM的角度做一些發(fā)展趨勢(shì)的展望。我們都知道視覺(jué)SLAM是很依賴特征的,未來(lái)SLAM技術(shù)的發(fā)展趨勢(shì)必然會(huì)從以前的底層特征比如點(diǎn)、線、面,向高層特征比如語(yǔ)義、文字、物體等趨勢(shì)發(fā)展。并且,現(xiàn)在已經(jīng)有一些提取運(yùn)動(dòng)規(guī)律的工作比如人的步態(tài)規(guī)律、機(jī)器人和無(wú)人車的運(yùn)動(dòng)規(guī)則等等,來(lái)進(jìn)一步提高定位的穩(wěn)定性。

有一個(gè)趨勢(shì)是朝著多傳感器融合的方向發(fā)展,其實(shí)每個(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),那么最好的方法就是把這些傳感器的信息都融合起來(lái),比如說(shuō)隨著深度相機(jī)的流行,一些手機(jī)上都安裝了深度攝像頭,還有Wifi、藍(lán)牙、地磁信號(hào)等等,把這些信號(hào)都融合起來(lái)肯定可以提升定位的穩(wěn)定性。未來(lái)還會(huì)有更多類型的傳感器出現(xiàn),比如這幾年新出來(lái)的事件相機(jī)、偏振相機(jī),相信未來(lái)5-10年還會(huì)有一些新的傳感器出來(lái)。通過(guò)多傳感器融合,我相信SLAM技術(shù)會(huì)做的越來(lái)越精準(zhǔn)和魯棒。

還有一個(gè)趨勢(shì)就是隨著5G時(shí)代的到來(lái)SLAM會(huì)朝著云和端結(jié)合的趨勢(shì)發(fā)展,比如說(shuō)現(xiàn)在高精度地圖的構(gòu)建是放在云上,并且支持動(dòng)態(tài)的更新。這就很自然地涉及到移動(dòng)端上的SLAM和云上的高精度地圖如何做緊耦合,如何利用語(yǔ)義地圖的信息來(lái)更好地定位,不同終端如何協(xié)同來(lái)做SLAM。

現(xiàn)在主要是深度學(xué)習(xí)的時(shí)代,對(duì)于SLAM來(lái)說(shuō),目前已有不少基于深度學(xué)習(xí)的工作,相信未來(lái)還會(huì)有更多這方面的工作涌現(xiàn)出來(lái),比如如何學(xué)習(xí)一個(gè)更好的特征,如何學(xué)習(xí)更好的策略去解決SLAM中手寫規(guī)則的困境,可能還會(huì)有做得很好的端到端的位姿學(xué)習(xí)。還有一個(gè)非常重要的就是語(yǔ)義信息的融合,比如說(shuō),結(jié)構(gòu)的信息怎么跟語(yǔ)義信息做更好的融合,就像人眼一樣看世界。我覺(jué)得這是未來(lái)的一個(gè)發(fā)展趨勢(shì)。

以上是關(guān)于SLAM方面的。然后,三維重建,劉老師前面已經(jīng)討論得很多了,尤其是動(dòng)態(tài)場(chǎng)景的重建,我這里稍微再做一點(diǎn)補(bǔ)充。我覺(jué)得未來(lái)物體的三維掃描方面,一些便攜式、移動(dòng)式的RGBD傳感器會(huì)越來(lái)越流行,比如說(shuō)基于結(jié)構(gòu)光和ToF的深度傳感器,未來(lái)我相信還會(huì)有一些新的傳感器出現(xiàn),可以幫助實(shí)現(xiàn)實(shí)時(shí)高效的三維重建。這里重建的不只是幾何和紋理,還包括材質(zhì)、語(yǔ)義等等;谡掌/視頻的三維重建技術(shù)未來(lái)幾年也還會(huì)有一些進(jìn)展,比如實(shí)現(xiàn)更高的幾何精度和紋理,能得到更細(xì)粒度的語(yǔ)義,并且結(jié)合分布式平臺(tái)的算力實(shí)現(xiàn)更高效的重建。

在大規(guī)模場(chǎng)景的三維掃描方面,目前基于相機(jī)拍攝的視頻或者照片已經(jīng)可以做到城市級(jí)場(chǎng)景的三維重建。一般都是通過(guò)無(wú)人機(jī)航拍,然后重建出來(lái)。如果進(jìn)一步結(jié)合深度傳感器(比如Lidar),相信可以實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建。再結(jié)合分布式平臺(tái)的計(jì)算能力,實(shí)現(xiàn)整個(gè)城市甚至整個(gè)地球的完整三維地圖的重建將不是問(wèn)題。當(dāng)然只是靜態(tài)場(chǎng)景的重建還不算太難,更難的是怎么實(shí)現(xiàn)動(dòng)態(tài)物體的重建和場(chǎng)景的動(dòng)態(tài)更新,因?yàn)檎鎸?shí)的世界不是靜態(tài)的,而是動(dòng)態(tài)變化的。我覺(jué)得未來(lái)可能會(huì)通過(guò)相對(duì)低成本比如多傳感器融合的方式來(lái)實(shí)現(xiàn)四維的場(chǎng)景地圖的動(dòng)態(tài)更新。包括前面講的通過(guò)三維掃描獲得的物體模型可以注冊(cè)到真實(shí)世界的三維地圖中,來(lái)實(shí)現(xiàn)三維信息的共享和傳遞。

然后,我想談一下識(shí)別和重建的關(guān)系。識(shí)別和重建未來(lái)5到10年會(huì)往更深層次的融合。目前三維重建基本上是bottom-up的方式,對(duì)先驗(yàn)知識(shí)的利用不夠充分,未來(lái)5-10年可能會(huì)誕生top-down的方式,比如說(shuō)先識(shí)別后重建,或者兩者同步進(jìn)行。識(shí)別能夠提供更高層次的結(jié)構(gòu)先驗(yàn),反過(guò)來(lái)重建能夠幫助做更好的物體識(shí)別,因此未來(lái)會(huì)更加緊密的融合。另外,也還需要深度學(xué)習(xí)和幾何優(yōu)化算法的融合,才能最終構(gòu)建出兼具幾何外觀、語(yǔ)義信息、結(jié)構(gòu)化的、可動(dòng)態(tài)更新的3D場(chǎng)景表示。

另外,因?yàn)槲冶救艘恢痹谧鯝R方面的應(yīng)用,所以也想談一下關(guān)于AR/VR、AI和三維視覺(jué)協(xié)同發(fā)展的趨勢(shì)。其實(shí)AR主要是AI和三維視覺(jué)的應(yīng)用。這三者如果能夠緊密協(xié)同發(fā)展,那么我相信未來(lái)五到十年就可以實(shí)現(xiàn)一個(gè)地球級(jí)的現(xiàn)實(shí)世界的數(shù)字化。左邊這個(gè)圖是華為前不久提出的Cyberverse數(shù)字現(xiàn)實(shí)技術(shù),它主要是通過(guò)相機(jī)、Lidar等傳感器對(duì)真實(shí)世界進(jìn)行掃描并構(gòu)建高精度地圖,然后基于高精度地圖來(lái)實(shí)現(xiàn)室內(nèi)外精準(zhǔn)的定位和導(dǎo)航以及各種AR效果。Cyberverse實(shí)際上也不是一個(gè)完全新的概念,Magic Leap在2018年就提出過(guò)類似的概念Magicverse,旨在將大規(guī)模物理世界和數(shù)字世界持續(xù)地融合在一起。如右圖所示,Magicverse包括好幾個(gè)層,主要兩種類型,一類是叫做基礎(chǔ)層(包含物理世界和數(shù)字世界),還有一類叫空間應(yīng)用層;A(chǔ)層最底下是物理世界,然后在物理世界上構(gòu)造一個(gè)對(duì)應(yīng)的數(shù)字世界,然后再上面就是空間應(yīng)用層,包括流動(dòng)性、能源與水、健康與保健、通訊、娛樂(lè)等。

要實(shí)現(xiàn)這樣一個(gè)數(shù)字化的現(xiàn)實(shí)世界,最關(guān)鍵的一點(diǎn)就是對(duì)物理世界進(jìn)行三維數(shù)字化,也就是如何對(duì)高精度地圖進(jìn)行采集、構(gòu)建和更新。我相信未來(lái)必然是朝著多模態(tài)、多傳感器采集和融合的方式發(fā)展,因?yàn)槊總(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),需要融合互補(bǔ)。這里最難的問(wèn)題可能是怎么進(jìn)行動(dòng)態(tài)更新。我相信眾包式的采集和更新是實(shí)現(xiàn)這個(gè)目標(biāo)的有效方式,可以實(shí)現(xiàn)低成本、高頻次的更新。高精度地圖除了三維還應(yīng)該包括語(yǔ)義信息,因此語(yǔ)義信息的提取也是非常重要的,而且需要滿足不同應(yīng)用的語(yǔ)義信息,比如說(shuō)定位、AR/VR的展示、行為分析等等。這就要實(shí)現(xiàn)不同粒度語(yǔ)義信息的提取,這里面的粒度可以大到整個(gè)商場(chǎng),再到一個(gè)門店,再小一點(diǎn)就是一個(gè)商品。除了物理世界的三維數(shù)字化,還需要對(duì)人的行為進(jìn)行數(shù)字化,運(yùn)動(dòng)行為、消費(fèi)的行為、社交行為等等。

對(duì)于這樣構(gòu)建的人的行為也好、三維空間也好,再結(jié)合SLAM、AR技術(shù),我們可以實(shí)現(xiàn)地球級(jí)的AR應(yīng)用。當(dāng)然,這里首先需要解決云端的高精度地圖怎么與終端SLAM緊耦合,這樣才能夠?qū)崿F(xiàn)長(zhǎng)時(shí)間大范圍的精準(zhǔn)定位和高品質(zhì)虛實(shí)融合。松耦合模式會(huì)有一些缺陷,誤差累積會(huì)很快,穩(wěn)定性也不夠好;谶@樣的一種方式,我們可以實(shí)現(xiàn)室內(nèi)外的分米級(jí)甚至到厘米級(jí)的定位和導(dǎo)航。

另外,我們知道5G時(shí)代很快就要到來(lái)了。目前的AR計(jì)算還主要是在終端,比如手機(jī)、AR眼鏡等。未來(lái)有5G的情況下很多計(jì)算都可以放到云或邊上,對(duì)終端的計(jì)算要求相對(duì)弱化,終端未來(lái)更多的是提供數(shù)據(jù)采集、連接和顯示的能力。因?yàn)橛性贫怂懔Φ募映,高品質(zhì)的AR效果可以得以實(shí)現(xiàn),比如高逼真的物理效果模擬,準(zhǔn)確的遮擋效果和虛實(shí)交互,精準(zhǔn)的光照估計(jì)和電影級(jí)的真實(shí)感繪制與虛實(shí)融合效果就成為可能。在5G時(shí)代,一方面?zhèn)鬏斔俣确浅?,另一方面有云端算力加持,未?lái)應(yīng)用APP甚至都不要預(yù)裝,我們打開(kāi)一個(gè)APP就像在瀏覽器上輸入網(wǎng)址或電視機(jī)上切換頻道一樣便捷。

以上是我對(duì)三維視覺(jué)和AR方面未來(lái)發(fā)展趨勢(shì)的看法,供大家參考。

三、專家討論發(fā)言

謝曉華:

我感覺(jué)我們是不是忽略了一點(diǎn),就是硬件發(fā)展。例如我們之前做超分辨率,做了很多,但是后來(lái)高清相機(jī)一出來(lái),很多工作就白做了。那會(huì)不會(huì)在未來(lái)的十年范圍內(nèi)視覺(jué)傳感器這一塊會(huì)有比較大的突破,然后剛才提到的一些工作就沒(méi)有必要去做了。

林宙辰:

我想說(shuō)一說(shuō)什么樣的計(jì)算體系適合做計(jì)算機(jī)視覺(jué)?現(xiàn)在我們都是基于馮諾依曼體系,但是人的視覺(jué)處理過(guò)程跟馮諾依曼體系有很大的差別。如果是在新型的計(jì)算平臺(tái)上面,是不是很多計(jì)算機(jī)視覺(jué)的問(wèn)題能更好或更高效的解決,我覺(jué)得是可以探討的。另外一個(gè),我贊成主動(dòng)視覺(jué)和在線學(xué)習(xí)。我覺(jué)得現(xiàn)在的視覺(jué)系統(tǒng)觸碰到了一點(diǎn)是,每個(gè)人都是from scratch,這樣的話精力有限你就只能做一個(gè)非常簡(jiǎn)單的任務(wù)。我覺(jué)得將來(lái)可以做一個(gè)像wiki一樣的項(xiàng)目,全世界都可以貢獻(xiàn),這樣的話大家都在共同構(gòu)建一個(gè)統(tǒng)一的系統(tǒng),而且這個(gè)系統(tǒng)可以利用網(wǎng)絡(luò)上的所有數(shù)據(jù),可以自我進(jìn)化(evolution)。然后這個(gè)系統(tǒng)大家都可以公用,這樣就可以解決每個(gè)人的系統(tǒng)不停的從頭學(xué)習(xí)的問(wèn)題,因?yàn)閱蝹(gè)人做的話只能做很小的一部分。

林倞:

我想談一談關(guān)于benchmark或者關(guān)于AI的評(píng)價(jià)系統(tǒng)或者CV評(píng)價(jià)系統(tǒng)的好壞的基準(zhǔn)。因?yàn)槲艺J(rèn)為我們很多的研究是受這個(gè)基準(zhǔn)所驅(qū)動(dòng)的,或者說(shuō)是跟這個(gè)benchmark是相互驅(qū)動(dòng)的。現(xiàn)在CV的趨勢(shì)是融合、協(xié)同等,那么未來(lái)我們可能會(huì)需要一種新的評(píng)價(jià)體系來(lái)看CV的狀況,可能不需要在一個(gè)特別的識(shí)別問(wèn)題或者分割問(wèn)題上達(dá)到特別高的精度,但是我們同時(shí)接入理解、分析、可解釋性等,這樣才能評(píng)價(jià)一個(gè)AI或者CV系統(tǒng)的魯棒性,更像人一樣的而不是把它歸類為一個(gè)分類問(wèn)題或者重建問(wèn)題,我覺(jué)得這個(gè)可能是我們要很具體的去討論和去發(fā)現(xiàn)的問(wèn)題。

山世光:

我們討論十年后視覺(jué)可以發(fā)展到一個(gè)什么樣的水平,可是我們并沒(méi)有定義清楚,我們?cè)撊绾螐目傮w上度量視覺(jué)智能的進(jìn)步,比如說(shuō)現(xiàn)在視覺(jué)智能水平是60分,十年后我們可以做到80分,這個(gè)沒(méi)有明確的標(biāo)準(zhǔn)。包括什么是視覺(jué)理解、圖像理解,怎么定義呢?比如我們做人臉識(shí)別,很清楚,就是以某個(gè)數(shù)據(jù)庫(kù)上的識(shí)別率為準(zhǔn)?墒亲鳛橐粋(gè)general的視覺(jué)我們好像沒(méi)有這樣的一個(gè)標(biāo)準(zhǔn)。

另外,作為一個(gè)標(biāo)準(zhǔn)的benchmark的角度來(lái)說(shuō)的話,是不是人的視覺(jué)也是分兩種,一種是通用的視覺(jué),一種是專用的視覺(jué)。比如我們普通人看不懂醫(yī)療影像但專業(yè)醫(yī)師就可以,但是我們都有通用的視覺(jué)的能力。這兩類視覺(jué)實(shí)現(xiàn)的路徑是一樣的還是不一樣的?

還有一個(gè)就是剛才提到的十年后我們可能把地球都數(shù)字化了,但是這個(gè)數(shù)字話不見(jiàn)得是個(gè)簡(jiǎn)單的數(shù)字化,比如是地圖化的,那地圖化的話對(duì)我們做視覺(jué)的有什么樣的幫助呢?我覺(jué)得是不是類似于出現(xiàn)了一個(gè)視覺(jué)智能測(cè)試的“靶場(chǎng)”,我們的很多東西都可以在這個(gè)“靶場(chǎng)”里去測(cè)試。例如很多做自動(dòng)駕駛的系統(tǒng)初步的訓(xùn)練都是用的合成的模擬數(shù)據(jù)。那么也許我們有了一個(gè)很好的關(guān)于地球的數(shù)字化模擬的時(shí)候,我們就有了一個(gè)很好的視覺(jué)的“靶場(chǎng)”,這個(gè)“靶場(chǎng)”既可以做訓(xùn)練也可以做測(cè)試。

此外,要不要做視覺(jué)常識(shí)?大家都在說(shuō)知識(shí),我覺(jué)得知識(shí)這個(gè)體系如果沒(méi)有常識(shí),感覺(jué)有些空中樓閣。我們做視覺(jué)先得有視覺(jué)常識(shí),有常識(shí)才有可能有所謂的理解,我不知道是否正確,我覺(jué)得這個(gè)問(wèn)題可以討論。

陳熙霖:

關(guān)于理解的評(píng)價(jià)問(wèn)題,我們可以想想人是怎么做的。對(duì)于人類形成體系的知識(shí)我們確實(shí)有benchmark,確實(shí)有考題?墒菍(duì)人類探索中的知識(shí)是沒(méi)有考題的。大家理解的知識(shí)最后形成一個(gè)公共認(rèn)可的交集,最后逐步拓展。所以,我個(gè)人認(rèn)為在未來(lái)的推動(dòng)理解的研究中,benchmark不能沒(méi)有,但是不能唯Benchmark。如果說(shuō)過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)的發(fā)展,今天可能成為束縛了計(jì)算機(jī)視覺(jué)發(fā)展的一個(gè)因素。我經(jīng)常跟學(xué)生為此爭(zhēng)論,一些學(xué)生認(rèn)為離開(kāi)可評(píng)測(cè)數(shù)據(jù)集的工作就不是研究。而對(duì)真正智能的研究可能就是沒(méi)有Benchmark——沒(méi)有最聰明,只有更聰明。對(duì)于場(chǎng)景理解一類的任務(wù)而言,一個(gè)機(jī)器可能發(fā)掘出100組關(guān)系,另一個(gè)機(jī)器可能發(fā)掘出300組關(guān)系,那后者的理解能力可能就超越了前者,如果前者的關(guān)系是后者的真子集,那后者就一定具有更強(qiáng)的理解能力。當(dāng)然更多的是兩者可能具有互補(bǔ)性,如同人類的三人行必有我?guī)煛?

第二件事情是說(shuō)通用視覺(jué)與專用視覺(jué),我的觀點(diǎn)是對(duì)于醫(yī)療判讀這類的所謂專用視覺(jué)其實(shí)遠(yuǎn)遠(yuǎn)超越了視覺(jué)本身,它不僅僅是視覺(jué),醫(yī)生的判斷是在視覺(jué)現(xiàn)象基礎(chǔ)上的知識(shí)/邏輯推理。

胡占義:

這個(gè)觀點(diǎn)我有點(diǎn)不大同意。我最近十多年一直在研究生物視覺(jué),視覺(jué)絕不是說(shuō)就是感知,視覺(jué)包含認(rèn)知。僅僅視覺(jué)物體識(shí)別這個(gè)具體問(wèn)題,人類就有約三分之一的大腦皮層參與。當(dāng)然,某個(gè)大腦皮層區(qū)域參與視覺(jué)問(wèn)題,絕不能說(shuō)該皮層就是視覺(jué)皮層。大腦的大多數(shù)高級(jí)皮層,都在于加工多種感覺(jué)信息融合后的信息,進(jìn)行認(rèn)知決策和行為規(guī)劃。所以說(shuō)視覺(jué)問(wèn)題,它涉及真?zhèn)大腦,包括皮層和皮下組織的聯(lián)合加工,絕不是完全由大腦的視覺(jué)皮層完成。視覺(jué)皮層是指主要對(duì)視覺(jué)信息進(jìn)行加工的皮層,很多皮層參與視覺(jué)信息加工,但不是視覺(jué)皮層。

我先說(shuō)第一個(gè)觀點(diǎn),人的視覺(jué)和計(jì)算機(jī)視覺(jué)是有區(qū)別的,如果說(shuō)把人類視覺(jué)的腦加工機(jī)制完全解釋清楚,我覺(jué)得和搞清楚宇宙起源的難度沒(méi)有區(qū)別,我研究了差不多十五六年生物視覺(jué),據(jù)我所知,神經(jīng)科學(xué)領(lǐng)域目前對(duì)視覺(jué)V1區(qū)研究的比較清楚,V2區(qū)已不太清楚,更不用后面的V4和IT區(qū),以及前額葉(PFC)等高級(jí)皮層。視覺(jué)問(wèn)題處理基本涉及到大腦皮層的各個(gè)區(qū)域。所以說(shuō)研究計(jì)算機(jī)視覺(jué)我覺(jué)得我們要弄清楚到底什么是計(jì)算機(jī)視覺(jué),什么是計(jì)算機(jī)視覺(jué)的核心科學(xué)問(wèn)題,我們不能夠把什么東西都往上加。我覺(jué)得我們要好好討論討論,五到十年內(nèi)我們到底主要是研究視覺(jué)感知還是視覺(jué)認(rèn)知?如果研究視覺(jué)認(rèn)知那是一萬(wàn)年的事。我目前不怎么研究計(jì)算機(jī)視覺(jué)了,我主要關(guān)注生物視覺(jué)了,也許我說(shuō)的不對(duì),但我覺(jué)得大家還是聚焦一些,目標(biāo)可實(shí)現(xiàn)一些。

我們討論五到十年的計(jì)算機(jī)視覺(jué)研究方向,不是指具體的算法,我們十年前也不知道深度學(xué)習(xí)能達(dá)到今天這樣的一個(gè)高度,我們要討論到底哪些方向是值得研究的,我自己覺(jué)得有三個(gè)需要關(guān)注的方向:1.基于神經(jīng)生理的計(jì)算機(jī)視覺(jué),估計(jì)在五到十年以內(nèi)是一個(gè)重大方向;2.視頻理解;3.涉及中國(guó)特色的全球戰(zhàn)略相關(guān)的視覺(jué)研究:如衛(wèi)星數(shù)據(jù)理解(全球戰(zhàn)略),深海水下視覺(jué)信息處理(深海戰(zhàn)略)。

紀(jì)榮嶸:

我自己覺(jué)得我從博士畢業(yè)到現(xiàn)在大概10年的時(shí)間,我認(rèn)為計(jì)算機(jī)視覺(jué)是遠(yuǎn)遠(yuǎn)超過(guò)了我當(dāng)時(shí)讀書時(shí)的任何方向,比如說(shuō)自然語(yǔ)言理解,信息檢索等等。我覺(jué)得一個(gè)重要的原因是深度學(xué)習(xí)帶來(lái)的收獲。但另一個(gè)方面,我們的這些系統(tǒng)太大太厚重,有沒(méi)有可能把這個(gè)系統(tǒng)做的小一些,做的開(kāi)銷更小一些,這里面有幾個(gè)維度。大家能馬上想到的維度就是把系統(tǒng)做小,做小就可以把它放到端上,放到嵌入式設(shè)備上。

第二個(gè)就是把系統(tǒng)做快,現(xiàn)在自動(dòng)駕駛或者端上的設(shè)備的計(jì)算,有可能需要系統(tǒng)處理數(shù)據(jù)要遠(yuǎn)遠(yuǎn)快于實(shí)時(shí)。

第三點(diǎn),現(xiàn)在我們很多時(shí)候都是在做單點(diǎn)的系統(tǒng),每個(gè)攝像機(jī)執(zhí)行的功能都是一個(gè)完整的閉環(huán),花了很多的計(jì)算代價(jià)做了很多重復(fù)的事情,未來(lái)的視覺(jué)系統(tǒng)有沒(méi)有可能由點(diǎn)到面進(jìn)行大范圍系統(tǒng)之間的協(xié)同。就是說(shuō)有沒(méi)有可能由專到廣的,為什么是由專到廣,現(xiàn)在每個(gè)模型只能解決一個(gè)任務(wù),為了解決目標(biāo)識(shí)別用的是目標(biāo)識(shí)別的模型,為了解決語(yǔ)義分割用的是語(yǔ)義分割的模型,為了解決人臉而用人臉的模型,我覺(jué)得我們的人腦并沒(méi)有分得那么清楚。one by one或者 1 v 1的我個(gè)人感覺(jué)太消耗資源了,有沒(méi)有可能有一種更靈活的機(jī)制,網(wǎng)絡(luò)結(jié)構(gòu)可以由不同的形式組合在一起,比如說(shuō)一套模型的backbone,它往上的話既可以做識(shí)別又可以做分割還可以檢索,還可以做相關(guān)的理解。這樣的話就可以把整個(gè)計(jì)算量給降下來(lái)。我相信人類進(jìn)化到現(xiàn)在這個(gè)階段,我們用我們的大腦實(shí)現(xiàn)了多任務(wù)的,高效能的,并行而且只占用極小的存儲(chǔ)開(kāi)銷,我們每天只用吃三碗米飯,我們能完成這個(gè)計(jì)算機(jī)系統(tǒng)消耗多少的計(jì)算量來(lái)完成的事情。

第四個(gè)觀點(diǎn),我覺(jué)得我們的系統(tǒng)現(xiàn)在“吃”數(shù)據(jù)“吃”的太厲害。我覺(jué)得我們?nèi)祟愖陨碚娴臎](méi)有用到這么多的數(shù)據(jù)進(jìn)行學(xué)習(xí),我們用了大量的數(shù)據(jù)復(fù)用,比如說(shuō)我識(shí)別消防車,只需要在車子上加一些特殊的部件,我就能識(shí)別消防車,我們?nèi)耸呛苤悄艿摹5俏覀儸F(xiàn)在的計(jì)算機(jī)系統(tǒng)太吃這些硬性的資源,所以我覺(jué)得在計(jì)算資源的消耗上和訓(xùn)練數(shù)據(jù)消耗上我們也應(yīng)該探索更多的機(jī)制。

然后,從我自己的感受來(lái)說(shuō),過(guò)去的時(shí)間我們看到世界往前發(fā)展,我特別希望未來(lái)的五到十年里面,計(jì)算機(jī)視覺(jué)的發(fā)展是由我們中國(guó)的學(xué)者去引領(lǐng)的,因?yàn)槲覀儸F(xiàn)在有巨量的市場(chǎng),這個(gè)市場(chǎng)有我們能馬上可以看到的技術(shù)痛點(diǎn),這痛點(diǎn)就在我們身邊,應(yīng)該是我們來(lái)做,而不是讓外國(guó)人來(lái)做我們的痛點(diǎn),我們應(yīng)該去引領(lǐng)它,所以我覺(jué)得未來(lái)的五到十年有很多是我們這些中國(guó)計(jì)算機(jī)視覺(jué)的學(xué)者應(yīng)該去做的事情。

林宙辰:

在手機(jī)上要越做越小,我覺(jué)得這不是正確的方向。將來(lái)的視覺(jué)系統(tǒng)應(yīng)該越做越大,不是越做越小。所有的運(yùn)算通過(guò)5G放在云上面運(yùn)算是未來(lái)的一個(gè)趨勢(shì)。我們大家都在云端上建立一個(gè)大系統(tǒng),這樣的話能夠解決多樣性的問(wèn)題。因?yàn)橐靡粋(gè)小系統(tǒng)來(lái)解決各種各樣的問(wèn)題,我覺(jué)得這個(gè)概率上講是不可能的,就是要建立一個(gè)跟人腦一樣復(fù)雜的一個(gè)系統(tǒng),它才能夠解決各式各樣的問(wèn)題,這個(gè)系統(tǒng)肯定只能放在云上面,手機(jī)端愿意多算就多,少算就少算,不要把所有的計(jì)算都擠到一個(gè)小的手機(jī)上面來(lái)。

紀(jì)榮嶸:

我覺(jué)得不一定完全正確。我覺(jué)得端上可以做一些輕量級(jí)的計(jì)算,云上做更重量的計(jì)算。而且端上的計(jì)算可以使數(shù)據(jù)的傳輸由重量級(jí)變輕量級(jí)。比如說(shuō)原來(lái)傳圖像,現(xiàn)在可以只傳特征,原來(lái)要傳所有的區(qū)域,現(xiàn)在只要傳特定的區(qū)域。因?yàn)槭謾C(jī)只用作攝像設(shè)備感覺(jué)太浪費(fèi)了,手機(jī)其實(shí)是一個(gè)很好的計(jì)算設(shè)備。

林宙辰:

我們并不矛盾。我是說(shuō)想在手機(jī)上解決所有的問(wèn)題這一點(diǎn)我是反對(duì)的。一開(kāi)始你說(shuō)要在手機(jī)上做小網(wǎng)絡(luò)這個(gè)東西,肯定是越小功能越差。

胡占義:

對(duì)于這個(gè)問(wèn)題我提個(gè)建議,5G對(duì)我們計(jì)算機(jī)視覺(jué)影響有多大,其實(shí)就是小終端和大終端的問(wèn)題。如果5G網(wǎng)絡(luò)很快,終端干脆就可以很小,不需要在這里處理,直接放到云上。我覺(jué)得5G對(duì)計(jì)算機(jī)視覺(jué)的影響確實(shí)要好好理解。

王亦洲:

你倆說(shuō)的沒(méi)有矛盾,在專業(yè)任務(wù)上一定要壓縮。處理是與任務(wù)相關(guān)的,只要滿足任務(wù)的需求就行。視覺(jué)是一個(gè)ill-defined problem。什么是視覺(jué)這個(gè)概念太大了,但如果局限到圖像,又太小了。所以怎么去把握它呢?我們丟這個(gè)陣地,就丟在了問(wèn)題的復(fù)雜度上面,F(xiàn)在已經(jīng)被深度學(xué)習(xí)占領(lǐng)了,我們?cè)倨恋睦碚、性能都不行?然后我們丟在哪兒了呢?視覺(jué)問(wèn)題是不是深度學(xué)習(xí)就解決了?視覺(jué)并不僅僅是一個(gè)學(xué)習(xí)問(wèn)題,剛才說(shuō)視覺(jué)可以很大,它可以是個(gè)認(rèn)知的問(wèn)題,top-down、bottom-up、然后各種任務(wù),我們定義的視覺(jué)問(wèn)題的復(fù)雜度不夠,系統(tǒng)的復(fù)雜度也不夠。所以我們要把系統(tǒng)的復(fù)雜度給加上去,把任務(wù)的復(fù)雜度也加上去,但是在每個(gè)具體的專項(xiàng)的任務(wù)上面, 我們要盡量讓它簡(jiǎn)潔(compact), 讓它適合于任務(wù)(fit for task)就夠, 所以怎么去拿回這個(gè)陣地,我覺(jué)得要在這兩方面,復(fù)雜度上面加大,然后才能夠有可能把這個(gè)視覺(jué)的東西給拿回來(lái)。但視覺(jué)其實(shí)不單單是視覺(jué)問(wèn)題,應(yīng)該是視覺(jué)主導(dǎo)的任務(wù)完成的一個(gè)問(wèn)題。所以,以后CVPR它有沒(méi)有存在的意義,或者說(shuō)是不是還是那個(gè)趨之若鶩的東西都不一定。

山世光:

我們值得討論的問(wèn)題是,怎么撇清計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)的關(guān)系?我們?cè)谖磥?lái)幾年是不是就認(rèn)慫了,是不是計(jì)算機(jī)視覺(jué)的問(wèn)題就是機(jī)器學(xué)習(xí)的問(wèn)題。這個(gè)我覺(jué)得我們年輕人還是特別困惑,比如說(shuō)有什么問(wèn)題是機(jī)器學(xué)習(xí)肯定搞不定,只能靠計(jì)算機(jī)視覺(jué)理論和方法來(lái)去搞定的呢? 

陳熙霖:

是現(xiàn)在很多東西都被劃到機(jī)器學(xué)習(xí)了?梢詫(duì)比一下30年前機(jī)器學(xué)習(xí)的書和30年前模式識(shí)別的書,再拿今天機(jī)器學(xué)習(xí)和模式識(shí)別的書,看差別就行。

胡占義:

我覺(jué)得機(jī)器學(xué)習(xí)這個(gè)東西,是一種手段,它可以用于計(jì)算機(jī)視覺(jué),也可以用于自然語(yǔ)言處理。模式識(shí)別和數(shù)學(xué)沒(méi)有區(qū)別,我比較理想,我覺(jué)得一個(gè)是一種解釋手段,一個(gè)是說(shuō)要解決什么科學(xué)問(wèn)題。

王井東:

接著剛才山老師提到這個(gè)問(wèn)題。現(xiàn)在計(jì)算機(jī)視覺(jué)這么火,有多少是機(jī)器學(xué)習(xí)能做出來(lái)的東西。像alexnet也是做視覺(jué)問(wèn)題,其實(shí)根本沒(méi)必要擔(dān)心。我自己也做過(guò)機(jī)器學(xué)習(xí),可以舉個(gè)例子,早先做過(guò)加速、大規(guī)模等,在Matlab上面做,這怎么能證明這是個(gè)大規(guī)模的問(wèn)題,所以說(shuō)同樣根本不用擔(dān)心這個(gè)問(wèn)題。

剛才討論到一個(gè)問(wèn)題,就是說(shuō)計(jì)算機(jī)視覺(jué)5到10年怎么走,F(xiàn)在遇到一個(gè)狀況,不管是中國(guó)還是美國(guó),今年年視覺(jué)方向的工作機(jī)會(huì)(opening)特別少,從2012起視覺(jué)火了8年,應(yīng)該怎么繼續(xù)走。計(jì)算機(jī)行業(yè)外的人給予CV很高的期望,比如超越人類。其實(shí)這件事情不靠譜,根本沒(méi)有超越人類。但是不做計(jì)算機(jī)視覺(jué)的人總覺(jué)得計(jì)算機(jī)視覺(jué)的人應(yīng)該做些什么東西。但是現(xiàn)在到這個(gè)階段,也許這跟當(dāng)年神經(jīng)網(wǎng)絡(luò)一樣,像過(guò)街老鼠一樣,說(shuō)計(jì)算機(jī)視覺(jué)的人吹牛皮。其實(shí)不是我們吹得,是別人吹的。我們要思考,我們視覺(jué)如果繼續(xù)往前走,科學(xué)研究方面是一個(gè)問(wèn)題,另一方面是如何去得到持續(xù)關(guān)注真正做一些能夠work的系統(tǒng)出來(lái)。盡管我們今天已經(jīng)在很多方面做得不錯(cuò),但坦白來(lái)講還沒(méi)真正work。計(jì)算機(jī)視覺(jué)是不是應(yīng)該純粹從視覺(jué)的角度解決,其實(shí)多模態(tài)是一個(gè)很好的方向,單單靠視覺(jué)這一點(diǎn),在監(jiān)控系統(tǒng)里面還是很大的一個(gè)問(wèn)題。從方向上來(lái)講我比較看好多模態(tài)這個(gè)方向。

王濤:

關(guān)于未來(lái)計(jì)算機(jī)視覺(jué)發(fā)展的趨勢(shì)很多。我感覺(jué)一個(gè)最重要的趨勢(shì)應(yīng)該是主動(dòng)視覺(jué)。Imagenet競(jìng)賽能識(shí)別很多的物體,但是圖像分類真正在實(shí)際場(chǎng)景中就不管用。真正管用的是基于物體檢測(cè),然后再進(jìn)行識(shí)別的像人臉識(shí)別這種技術(shù)。為什么人臉識(shí)別成功了,圖像分類系統(tǒng)還不成熟。輸入一張圖像,你必須得按不同的區(qū)域不同的粒度進(jìn)行分析,比如在會(huì)場(chǎng)我們拍張照片,識(shí)別人,那我們?nèi)?shù)人頭。但是如果要識(shí)別投影儀設(shè)備,必須定位到這個(gè)投影儀圖像才能找到。第二個(gè)問(wèn)題是投影儀的信息有多種層次,比如說(shuō)有人想知道牌子,那你必須再細(xì)看到那個(gè)Logo,但是另外有人想知道怎么操作這個(gè)投影儀,那你必須得識(shí)別它的各種接口,你才能把它的功能識(shí)別出來(lái)。我感覺(jué)最近的Imagenet和ActivityNet行為識(shí)別競(jìng)賽,大家現(xiàn)在做的這兩類競(jìng)賽都是用圖像分類的競(jìng)賽做。用圖像分類做競(jìng)賽,實(shí)際中都不能用,為什么呢?它沒(méi)有像人一樣主動(dòng)去識(shí)別,你得看到這個(gè)人,看到那個(gè)人真正發(fā)生動(dòng)作的那一幀,這才能把它識(shí)別出來(lái),所以我感覺(jué)主動(dòng)是非常重要的。

第二個(gè),要有層次。層次就是不僅要識(shí)別出一些基本的要素,還要把里面的不同層次關(guān)系能夠結(jié)構(gòu)化的提取出來(lái)。我們實(shí)驗(yàn)發(fā)現(xiàn)把東西拿在一起學(xué)的效果會(huì)很差,但是如果把這個(gè)東西分成兩個(gè)部分,先固定解碼器學(xué)編碼器,然后再固定編碼器學(xué)解碼器,系統(tǒng)就學(xué)出來(lái)了。我們的學(xué)習(xí)得有一些像搭積木一樣的層次,先把基本的比如人臉、水杯、花識(shí)別出來(lái),然后拍一張照片能把物體之間的關(guān)系給識(shí)別出來(lái)。

第三個(gè),應(yīng)該怎么研究。視覺(jué)研究很廣,想要做成功,得針對(duì)具體的應(yīng)用。人臉識(shí)別系統(tǒng)很成熟,但是用在自動(dòng)駕駛上識(shí)別行人就不行,得一類一類來(lái),在不同應(yīng)用場(chǎng)景中,需要看到不同的數(shù)據(jù)和不同的性質(zhì)。所以我認(rèn)為針對(duì)具體應(yīng)用,未來(lái)除了在深度學(xué)習(xí)基礎(chǔ)上主動(dòng)視覺(jué),發(fā)揮層次融合推理應(yīng)該是一個(gè)比較好的趨勢(shì)。

胡占義:

我覺(jué)得主動(dòng)視覺(jué)很重要,但5-10年主動(dòng)視覺(jué)不可能取得巨大進(jìn)展。這涉及到生物里面反饋(feedback)的高層知識(shí),但反饋很難短期內(nèi)取得進(jìn)展。關(guān)于視覺(jué)的目的1994年CVGIP組織了一個(gè)?(jīng)有過(guò)一個(gè)辯論。從1994年到現(xiàn)在,可以說(shuō)主動(dòng)視覺(jué)沒(méi)有任何的進(jìn)展。在生物神經(jīng)系統(tǒng)里面有大量的反饋,但不知道反饋是什么東西。如果神經(jīng)科學(xué)很難給出一點(diǎn)啟示的話,那么我們計(jì)算機(jī)視覺(jué)就很難把它做成。這是我的一點(diǎn)個(gè)人觀點(diǎn)。

王濤:

我覺(jué)得以前主動(dòng)視覺(jué)不成功是因?yàn)檠芯糠椒ú粚?duì)和技術(shù)限制。

胡占義:

Recurrent有兩個(gè),一個(gè)是同層的抑制,一個(gè)是高層的反饋,而高層的反饋在生物視覺(jué)里面大家知道有大量的反饋,但是反饋的是什么東西還不清楚。所以說(shuō)根據(jù)我的理解,我覺(jué)得3-5年內(nèi)生物視覺(jué)很難有較大進(jìn)展。

王亦洲:

我補(bǔ)充一下,回到學(xué)習(xí)上,學(xué)習(xí)是視覺(jué)的核心。視覺(jué)其實(shí)是個(gè)偽問(wèn)題,但學(xué)習(xí)是一個(gè)永恒的本質(zhì)問(wèn)題。沒(méi)有學(xué)習(xí),視覺(jué)存不存在都不太重要了。與其叫計(jì)算機(jī)視覺(jué)還不如叫computational visual intelligence. 視覺(jué)是一種智能,智能的核心是學(xué)習(xí)怎么去獲得知識(shí),反饋只是學(xué)習(xí)和推理的一個(gè)環(huán)節(jié)。學(xué)習(xí)是什么?是簡(jiǎn)單的模式識(shí)別,還是高級(jí)學(xué)習(xí),這可能是學(xué)習(xí)下一步應(yīng)該走的,給學(xué)習(xí)起一個(gè)俗的名字叫元學(xué)習(xí),如果要和計(jì)算機(jī)視覺(jué)對(duì)應(yīng),我們叫元認(rèn)知。核心就是學(xué)習(xí),不搞學(xué)習(xí)是不行的。

楊睿剛:

我覺(jué)得機(jī)器視覺(jué)與生物視覺(jué)應(yīng)該有區(qū)別,不一定機(jī)器視覺(jué)要學(xué)習(xí)生物視覺(jué)。舉個(gè)例子,比如說(shuō)看全局我要大照片,然后看局部我要小照片,但是如果你有一個(gè)攝像頭,可以一下子拍10億像素,或者有一個(gè)攝像裝置能把光場(chǎng)記錄下來(lái),那active learning與passive learning就沒(méi)有區(qū)別了。這種硬件區(qū)別至少在二維圖像上,將來(lái)我覺(jué)得十億像素應(yīng)該是很快到來(lái)的事情。

陳熙霖:

這個(gè)地方我補(bǔ)充一句,這里的主動(dòng)不僅指分辨率,其本質(zhì)是通過(guò)主動(dòng)的“行為”進(jìn)行探索,從而達(dá)到有限資源的最大化利用。

楊睿剛:

你說(shuō)的是一種主動(dòng)感知的explore,還有一種不改變環(huán)境不改變物體的。

陳熙霖:

即使是不做改變,比如從一個(gè)角度看和從另一個(gè)角度看,光場(chǎng)相機(jī)并不解決這類問(wèn)題,我們無(wú)法獲得對(duì)象背后的光場(chǎng)。

楊睿剛:

光場(chǎng)相機(jī)陣列。

林宙辰:

楊睿剛的意思是說(shuō)干脆把所有的信息都采集了,這個(gè)機(jī)制還是有點(diǎn)不一樣。

王亦洲:

主動(dòng)學(xué)習(xí)有一個(gè)停機(jī)問(wèn)題,有一個(gè)選擇的問(wèn)題。就是說(shuō),你所有信息都在這兒,你什么時(shí)候停下來(lái),你決定采哪一塊,這是最重要的。所以主動(dòng)學(xué)習(xí),它并不是你把所有東西都拍上去,你也得要選擇。

楊睿剛:

選擇的問(wèn)題肯定要在里面,但是現(xiàn)在做主動(dòng)學(xué)習(xí)肯定涉及到機(jī)器人等問(wèn)題,超出了計(jì)算機(jī)視覺(jué)的范疇。

王亦洲:

所以就不要抱著計(jì)算機(jī)視覺(jué)了,這個(gè)就是我的意思。

胡占義:

主動(dòng)學(xué)習(xí)這里面有兩個(gè)概念。第一個(gè)是要有探索和注視,否則的話就沒(méi)有主動(dòng)性。第二個(gè)是記憶,主動(dòng)視覺(jué)是從生物來(lái)的概念。在計(jì)算機(jī)視覺(jué)里面,主動(dòng)視覺(jué)這個(gè)概念太大了。

查紅彬:

我想這里可以將主動(dòng)視覺(jué)與深度學(xué)習(xí)進(jìn)行對(duì)比。深度學(xué)習(xí)的問(wèn)題在于要有標(biāo)注數(shù)據(jù)庫(kù),需要事先整理好的數(shù)據(jù)。而視覺(jué)系統(tǒng)在實(shí)際場(chǎng)景中工作時(shí),需要自己選擇對(duì)自己有用的樣本。這樣,將樣本選擇與視點(diǎn)選擇,結(jié)構(gòu)重構(gòu),計(jì)算優(yōu)化等策略結(jié)合起來(lái),就能有效地發(fā)揮其主動(dòng)性,而不需要讓人把所有的數(shù)據(jù)都收集好喂給它。

鄭偉詩(shī):

學(xué)習(xí)對(duì)視覺(jué)很重要。Benchmark推動(dòng)也束縛了目前計(jì)算機(jī)視覺(jué)的發(fā)展,ReID做到97%,大家就想不到該做什么,但問(wèn)題本身并沒(méi)解決。數(shù)據(jù)庫(kù)太有限,采集的東西沒(méi)有完全反映整個(gè)問(wèn)題,比如說(shuō)行人的遮擋問(wèn)題,各種各樣的問(wèn)題。在有限數(shù)據(jù)的時(shí)候,學(xué)習(xí)可能不能完完全全地解決它。有限數(shù)據(jù)下的學(xué)習(xí),有沒(méi)有可能受到3D方面的啟發(fā)?把一個(gè)人整個(gè)3D的信息,還有行人整個(gè)行為的3D信息都能捕捉到的話,我們就可以去掉開(kāi)放環(huán)境下所受到的這些影響,然后我們就可以重構(gòu)。像我們可以構(gòu)造一個(gè)靶場(chǎng),這個(gè)靶場(chǎng)很重要,無(wú)論我們做任何的系統(tǒng)都要做測(cè)試,但如果只在有限數(shù)據(jù)上或片面的數(shù)據(jù)上做測(cè)試的話,我們?cè)谡鎸?shí)應(yīng)用的時(shí)候可能就會(huì)有受限。因此如果我們能夠把3D這種因素嵌入到現(xiàn)在以2D圖像為主導(dǎo)的計(jì)算機(jī)視覺(jué)里面的話,可能會(huì)對(duì)我們整個(gè)計(jì)算機(jī)視覺(jué)在未來(lái)3到5年的發(fā)展能有另外一個(gè)維度的推動(dòng)作用。

那么為什么做3D?另外一件事情就是現(xiàn)在可能在全世界都在談的數(shù)據(jù)隱私問(wèn)題。數(shù)據(jù)采集的隱私問(wèn)題越來(lái)越重要,如果你用的是一個(gè)虛擬的靶場(chǎng)的話,這種隱私問(wèn)題就完全不存在。所以,在未來(lái)包括可能在國(guó)外人臉識(shí)別、行人識(shí)別,甚至一些行為識(shí)別都有可能會(huì)受到嚴(yán)重的法律因素的滯后的影響的話,那么我們更需要從3D的角度,從另外一個(gè)維度去考慮,是不是在這方面可以拓寬計(jì)算機(jī)視覺(jué)的發(fā)展方向,這是我的觀點(diǎn)。 

賈云得:

我們做視覺(jué)很早了,早先把它作為一條小河,我們流那么多年,突然下大暴雨,現(xiàn)在是洪水猛獸(深度學(xué)習(xí))來(lái)了。五年以后估計(jì)這個(gè)模式都過(guò)去了。我覺(jué)得那條河還會(huì)在。因?yàn),從視網(wǎng)膜到視皮層這條通路在那擺著呢,非常高效。因此,還會(huì)有好多人研究,五年十年以后我們中國(guó)實(shí)驗(yàn)室做什么?肯定還是小河里面。

我看好兩個(gè)方向。第一個(gè)是三維視覺(jué),三維視覺(jué)不會(huì)很熱,也不會(huì)很冷,會(huì)一直往下走。第二,就是胡老師說(shuō)的視頻理解。這個(gè)好幾個(gè)老師也說(shuō)了,多模態(tài),就像我們看電影也是一樣的,看會(huì)兒畫面看字幕,看會(huì)兒字幕看畫面,來(lái)回互相理解,現(xiàn)在好像挺熱的。原來(lái)我們遇到的是數(shù)據(jù)-語(yǔ)義的鴻溝。后面我們?cè)谧R(shí)別結(jié)果和意識(shí)間的鴻溝也會(huì)出現(xiàn),一旦有鴻溝就變成熱點(diǎn),因?yàn)槔镞呏饔^加的東西太多了。我覺(jué)得視頻理解應(yīng)該是一個(gè)熱點(diǎn)。

魯繼文:

我覺(jué)得我們現(xiàn)在用了很多機(jī)器學(xué)習(xí)的知識(shí)。下一步,我自己更愿意做一些特別的工作,就是從機(jī)器學(xué)習(xí)到機(jī)器推理。比如給你一幅圖像,你一看就知道這個(gè)圖像未來(lái)應(yīng)該怎么樣發(fā)展,但對(duì)于計(jì)算機(jī)再?gòu)?qiáng)的網(wǎng)絡(luò)都不行。我覺(jué)得現(xiàn)在計(jì)算機(jī)視覺(jué)里面很多時(shí)候性能之所以好,是在于我們對(duì)這個(gè)問(wèn)題的定義,在這種定義基礎(chǔ)上已經(jīng)基本上可以解決,F(xiàn)在我們可能要再去找一些更能夠描述或者更能夠匹配人類視覺(jué)能力的計(jì)算機(jī)視覺(jué)任務(wù),F(xiàn)在比如說(shuō)檢測(cè)、分割、檢索、識(shí)別,都是單獨(dú)的視覺(jué)任務(wù),這種單純的視覺(jué)任務(wù)還是有點(diǎn)簡(jiǎn)單。當(dāng)然有的老師可能有不同的觀點(diǎn),就是說(shuō)他們的變化這種東西可能比較難。但實(shí)際上人的視覺(jué)更多的時(shí)候可能不是這樣子的。所以,我覺(jué)得在計(jì)算機(jī)視覺(jué)里面一個(gè)很重要的問(wèn)題是怎么樣找到這樣的任務(wù),能夠更好的與我們?nèi)祟惖囊曈X(jué)任務(wù)匹配起來(lái),這樣的任務(wù)既不能太難也不能太簡(jiǎn)單。這樣的任務(wù)我覺(jué)得還需要我們多花時(shí)間去思考討論,我自己也不知道是什么任務(wù)。

王亮:

未來(lái)5到10年的CV發(fā)展趨勢(shì)這個(gè)主題的主要目的是希望聽(tīng)聽(tīng)我們國(guó)內(nèi)視覺(jué)界專家們的新見(jiàn)解。今天聽(tīng)了各位講了很多,方方面面都有。如果說(shuō)個(gè)趨勢(shì)的話,每一個(gè)方面可能都會(huì)有一定的趨勢(shì),但大家的意見(jiàn)有不相同,也有相同的地方。這個(gè)主題的定位是希望通過(guò)這次的深度研討梳理幾個(gè)視覺(jué)領(lǐng)域中最重要的大家都認(rèn)可的這樣一個(gè)發(fā)展趨勢(shì),有不同的意見(jiàn)沒(méi)有關(guān)系,而且這個(gè)討論也是有交叉的。

查紅彬:

這種討論我覺(jué)得挺好。講一些發(fā)展趨勢(shì),然后大家能夠有一些思想上的碰撞和火花。做視覺(jué)研究,大家在發(fā)展趨勢(shì)上,如果有完全一樣的看法會(huì)很奇怪。要整理出比較明確的發(fā)展趨勢(shì)也很難。為什么呢? 誰(shuí)要想做出很好的工作,他就應(yīng)該有一些與別人不一樣的看法,如果大家都是同樣的看法,這事情就很難往下做。所以我覺(jué)得,我們更多的是通過(guò)交流各自的想法,啟發(fā)我們自己能有一些新的思路,或者在我自己的這些想法上能找到一些更多的理由、依據(jù),然后把這個(gè)事情做下去。所以我想通過(guò)這些討論,更多的是咱們能不能將來(lái)在國(guó)際會(huì)議上,在研究成果方面,我們也有自己的一些特色在里邊。到目前為止,我們寫文章是在拼什么?就拼數(shù)據(jù)庫(kù)測(cè)試上性能提高了百分之幾,而且大多數(shù)是在別人方法上改進(jìn)一下,然后做個(gè)實(shí)驗(yàn)說(shuō)我提高了百分之多少。但是我們很少有說(shuō)你的想法跟別人在什么地方不一樣,然后你這個(gè)不一樣的東西在某個(gè)地方用起來(lái)會(huì)有一些效果。一開(kāi)始你可能效果會(huì)比較差,而且你也不容易輕松地打動(dòng)別人,但是在你的帶領(lǐng)之下很多人都會(huì)來(lái)做這個(gè)事情的時(shí)候就不一樣了。所以我想說(shuō),能不能將來(lái)不是只盯著這個(gè)數(shù)據(jù)庫(kù)上的數(shù)據(jù)去拼,而是有更多的比較好的創(chuàng)意出來(lái)。

山世光:

是不是可以倡議建立一個(gè)只評(píng)價(jià)idea、方法原理,不評(píng)價(jià)在benchmark或者數(shù)據(jù)庫(kù)上的好壞的審稿機(jī)制?

陳熙霖:

胡老師剛才提到的1994年CVGIP組織的一個(gè)?,當(dāng)年提出了三個(gè)需要改進(jìn)的方面,今天真正實(shí)現(xiàn)的只有一件——就是benchmark。那場(chǎng)討論中說(shuō)我們這個(gè)領(lǐng)域里的工作缺乏比較,自說(shuō)自話,之后就產(chǎn)生了各種各樣比較的數(shù)據(jù)集。所以我剛才有一句話,在過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)研究的進(jìn)步,就是指的那場(chǎng)討論開(kāi)始的。

查紅彬:

我同意你的觀點(diǎn),F(xiàn)在回過(guò)頭來(lái)看看,計(jì)算機(jī)視覺(jué)研究了這么多年,也許就是在那些文章出來(lái)之后,我們?cè)贈(zèng)]有看到什么新的主意、新的理論出來(lái)了。在那之前百家齊放,好像有很多新的說(shuō)法出來(lái)。在那個(gè)benchmark出來(lái)之后大家都在做同樣的事情,最后整個(gè)領(lǐng)域就變得不怎么活躍了。

胡占義:

我們既然研究計(jì)算機(jī)視覺(jué),我建議大家讀一讀Marr的書。

盧湖川:

剛才說(shuō)到的benchmark,我覺(jué)得至少計(jì)算機(jī)視覺(jué)這個(gè)benchmark的存在,使得計(jì)算機(jī)視覺(jué)有別于純粹的機(jī)器學(xué)習(xí),而且特別是起到了該有的歷史作用,F(xiàn)在大家對(duì)它的詬病最主要的原因就是它還是一個(gè)單一的benchmark。那只能說(shuō)這個(gè)benchmark并不像人一樣,那如果有人再去定一個(gè)更復(fù)雜的benchmark,它是多維的,也許這個(gè)benchmark就能夠驅(qū)動(dòng)下一個(gè)時(shí)代的發(fā)展,也許就能夠完成像人一樣的學(xué)習(xí)或者識(shí)別等等。我覺(jué)得benchmark本身并沒(méi)有太大問(wèn)題,因?yàn)槿藦男∈芙逃臅r(shí)候就是教他這是什么那是什么,只是人是一個(gè)綜合的智能體。現(xiàn)在的benchmark如果再往更高的維度發(fā)展,也許能夠有更好的收獲。

楊睿剛:

現(xiàn)在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,還有隨之而來(lái)的各種各樣的比賽,哪些是重要的,哪些不重要。在某種意義上是不是也跟大家說(shuō),我又拿了個(gè)世界第一,但可能這個(gè)世界第一里面只有十個(gè)人參加。那有沒(méi)有一種方法可以有這樣的一個(gè)更加好的量化機(jī)制,可以給benchmark一個(gè)benchmark。

王井東:

Benchmark現(xiàn)在有個(gè)很大的問(wèn)題是很多人做不了。Imagenet很多人做不了,那做不了從我們研究人員的角度來(lái)講,就是文章可能出不去,這是一個(gè)可能不好的地方。 但從另外一個(gè)角度來(lái)講benchmark挺重要的。視覺(jué)的任務(wù)目的很多,我們做視覺(jué)還有一個(gè)重要目的就是培養(yǎng)學(xué)生,那至于視覺(jué)培養(yǎng)學(xué)生這個(gè)功能可能是區(qū)別于其他的,比如Multimedia。Multimedia從培養(yǎng)學(xué)生的角度上我覺(jué)得是很好的。但它有個(gè)很大的缺點(diǎn),是沒(méi)有benchmark。從這個(gè)角度來(lái)講benchmark還是需要的。只是現(xiàn)在審稿人對(duì)數(shù)據(jù)集的規(guī)模期望更大了,這對(duì)很多人來(lái)講尤其是學(xué)校里面是很有挑戰(zhàn)的,現(xiàn)在可能就少數(shù)幾個(gè)公司比較強(qiáng)。這是我對(duì)benchmark的觀點(diǎn)。

王亦洲:

建議PRCV單開(kāi)一個(gè)track,鼓勵(lì)創(chuàng)新性。單開(kāi)一個(gè)不看性能的track。





華南理工大學(xué)羅晶博士和楊辰光教授團(tuán)隊(duì)發(fā)文提出遙操作機(jī)器人交互感知與學(xué)習(xí)算法

羅晶博士和楊辰光教授團(tuán)隊(duì)提出,遙操作機(jī)器人系統(tǒng)可以自然地與外界環(huán)境進(jìn)行交互、編碼人機(jī)協(xié)作任務(wù)和生成任務(wù)模型,從而提升系統(tǒng)的類人化操作行為和智能化程度

實(shí)時(shí)識(shí)別卡扣成功裝配的機(jī)器學(xué)習(xí)框架

卡扣式裝配廣泛應(yīng)用于多種產(chǎn)品類型的制造中,卡扣裝配是結(jié)構(gòu)性的鎖定機(jī)制,通過(guò)一個(gè)機(jī)器學(xué)習(xí)框架將人類識(shí)別成功快速裝配的能力遷移到自主機(jī)器人裝配上。

基于多任務(wù)學(xué)習(xí)和負(fù)反饋的深度召回模型

基于行為序列的深度學(xué)習(xí)推薦模型搭配高性能的近似檢索算法可以實(shí)現(xiàn)既準(zhǔn)又快的召回性能,如何利用這些豐富的反饋信息改進(jìn)召回模型的性能

張帆博士與Yiannis Demiris教授團(tuán)隊(duì)提出高效的機(jī)器人學(xué)習(xí)抓取衣服方法

機(jī)器人輔助穿衣通常人工的將衣服附在機(jī)器人末端執(zhí)行器上,忽略機(jī)器人識(shí)別衣服抓取點(diǎn)并進(jìn)行抓取的過(guò)程,從而將問(wèn)題簡(jiǎn)化

百度算法大牛35頁(yè)P(yáng)PT講解基于EasyDL訓(xùn)練并部署企業(yè)級(jí)高精度AI模型

百度AI開(kāi)發(fā)平臺(tái)高級(jí)研發(fā)工程師餅干老師,為大家系統(tǒng)講解企業(yè)在AI模型開(kāi)發(fā)中的難點(diǎn),以及針對(duì)這些難點(diǎn),百度EasyDL專業(yè)版又是如何解決的

Technica公司發(fā)布智能霧計(jì)算平臺(tái)技術(shù)白皮書

SmartFog可以輕松地將人工智能分析微服務(wù)部署到云、霧和物聯(lián)網(wǎng)設(shè)備上,其架構(gòu)支持與現(xiàn)有系統(tǒng)的靈活集成,提供了大量的實(shí)現(xiàn)方案,要用下一代人工智能算法來(lái)彌補(bǔ)現(xiàn)有解決方案的不足。

深度學(xué)習(xí)在術(shù)前手術(shù)規(guī)劃中的應(yīng)用

深度學(xué)習(xí)對(duì)推動(dòng)術(shù)前手術(shù)規(guī)劃尤其重要,手術(shù)規(guī)劃中要根據(jù)現(xiàn)有的醫(yī)療記錄來(lái)計(jì)劃手術(shù)程序,而成像對(duì)于手術(shù)的成功至關(guān)重要

迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶星空、瞳步智能

戴瓊海院士:搭建腦科學(xué)與人工智能的橋梁

腦科學(xué)的發(fā)展將推動(dòng)人工智能科學(xué)從感知人工智能到認(rèn)知人工智能的跨越

省級(jí)政府和重點(diǎn)城市網(wǎng)上政務(wù)服務(wù)能力(政務(wù)服務(wù)“好差評(píng)”)調(diào)查評(píng)估報(bào)告(2020)

省級(jí)政府和重點(diǎn)城市網(wǎng)上政務(wù)服務(wù)能力(政務(wù)服務(wù)“好差評(píng)”)調(diào)查評(píng)估報(bào)告(2020)推動(dòng)政務(wù)服務(wù)逐步從低效到高效、從被動(dòng)到主動(dòng)、從粗放到精準(zhǔn)的轉(zhuǎn)變

加快“新基建”,打造城市競(jìng)爭(zhēng)力新底座

賽迪顧問(wèn)發(fā)布了《加快“新基建” 打造城市競(jìng)爭(zhēng)力新底座》白皮書是以新發(fā)展理念為引領(lǐng),以技術(shù)創(chuàng)新為驅(qū)動(dòng),以信息網(wǎng)絡(luò)為基礎(chǔ),面向高質(zhì)量發(fā)展需要,提供數(shù)字轉(zhuǎn)型、智能升級(jí)、融合創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系

華南理工大學(xué)羅晶博士和楊辰光教授團(tuán)隊(duì)發(fā)文提出遙操作機(jī)器人交互感知與學(xué)習(xí)算法

羅晶博士和楊辰光教授團(tuán)隊(duì)提出,遙操作機(jī)器人系統(tǒng)可以自然地與外界環(huán)境進(jìn)行交互、編碼人機(jī)協(xié)作任務(wù)和生成任務(wù)模型,從而提升系統(tǒng)的類人化操作行為和智能化程度

新基建下的移動(dòng)機(jī)器人新機(jī)遇

在新基建的七大細(xì)分領(lǐng)域之中,和移動(dòng)機(jī)器人相關(guān)的其實(shí)非常多,特別是工業(yè)互聯(lián)網(wǎng)領(lǐng)域的基礎(chǔ)建設(shè),會(huì)帶動(dòng)制造業(yè)的快速升級(jí)。AGV很有可能成為打通智能工廠建設(shè)中物質(zhì)流和信息流連接的重要一環(huán)

實(shí)時(shí)識(shí)別卡扣成功裝配的機(jī)器學(xué)習(xí)框架

卡扣式裝配廣泛應(yīng)用于多種產(chǎn)品類型的制造中,卡扣裝配是結(jié)構(gòu)性的鎖定機(jī)制,通過(guò)一個(gè)機(jī)器學(xué)習(xí)框架將人類識(shí)別成功快速裝配的能力遷移到自主機(jī)器人裝配上。

從兩會(huì)提案看清機(jī)器人行業(yè)五大趨勢(shì)

在新冠疫情背景下,隨著新基建持續(xù)火熱,機(jī)器人行業(yè)的發(fā)展也被按下了快進(jìn)鍵,服務(wù)機(jī)器人價(jià)值凸顯,讓更多人看到了服務(wù)機(jī)器人在更多場(chǎng)景中的應(yīng)用可能

苗圩:中國(guó)每周增加1萬(wàn)多個(gè)5G基站

5月25日,工業(yè)和信息化部部長(zhǎng)苗圩指出,5G從今年以來(lái)加快了建設(shè)速度,每一周大概要增加1萬(wàn)多個(gè)5G的基站

35省/市5G建設(shè)最新進(jìn)展與規(guī)劃一覽

在5月17日的2020年世界電信和信息社會(huì)日大會(huì)上,中國(guó)三大運(yùn)營(yíng)披露了5G進(jìn)展及計(jì)劃,據(jù)了解,目前全國(guó)5G基站已達(dá)24萬(wàn)個(gè)

日照市中小企業(yè)“專精特新”培育提升專項(xiàng)行動(dòng)方案(2020—2022 年)

5月25日,日照市人民政府辦公室印發(fā)了《日照市中小企業(yè)“專精特新”培育提升專項(xiàng)行動(dòng)方案(2020—2022年)》的通知

日照市中小企業(yè)“專精特新”培育提升專項(xiàng)行動(dòng)方案(2020—2022年)

5月25日,日照印發(fā)了《日照市中小企業(yè)“專精特新”培育提升專項(xiàng)行動(dòng)方案》第一部分:目標(biāo)任務(wù),第二部分:培育對(duì)象及發(fā)展方向,第三部分:工作重點(diǎn)

迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶星空、瞳步智能

山東機(jī)器人公司準(zhǔn)獨(dú)角獸企業(yè)-創(chuàng)澤智能

山東機(jī)器人公司,創(chuàng)澤機(jī)器人榮獲山東省工信廳人工智能領(lǐng)域的準(zhǔn)獨(dú)角獸的稱號(hào),是中國(guó)工信部人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜優(yōu)勝單位

消毒機(jī)器人優(yōu)勢(shì)、技術(shù)及未來(lái)發(fā)展趨勢(shì)

消毒機(jī)器人有哪些優(yōu)勢(shì),未來(lái)發(fā)展趨勢(shì)

家庭陪護(hù)機(jī)器人

家庭陪護(hù)機(jī)器人能在家中起到監(jiān)控安全陪護(hù)具有人機(jī)互動(dòng)交互服務(wù)多媒體娛樂(lè)價(jià)格查詢等

兒童陪護(hù)機(jī)器人

兒童陪護(hù)機(jī)器人與孩子互動(dòng)陪伴玩耍學(xué)習(xí)價(jià)格問(wèn)詢等功能說(shuō)明使用指南介紹

展館智能機(jī)器人

展館智能機(jī)器人可講解自主行走語(yǔ)音交互咨詢互動(dòng)價(jià)格咨詢等功能介紹以及表情展現(xiàn)能力

智能講解機(jī)器人

智能講解機(jī)器人正在劍橋講解演示咨詢互動(dòng)移動(dòng)宣傳價(jià)格問(wèn)詢等功能說(shuō)明介紹

智能接待機(jī)器人

智能接待機(jī)器人迎賓服務(wù)來(lái)賓問(wèn)詢答疑價(jià)格查詢

智能主持機(jī)器人

智能主持機(jī)器人參與主持了寧夏的云天大會(huì)并完成了大會(huì)的接待任務(wù)多才多藝載很受歡迎

超市智能機(jī)器人

超市智能機(jī)器人能幫助商家吸引客戶道路指引導(dǎo)購(gòu)價(jià)格查詢

4s店智能機(jī)器人

4s店智能機(jī)器人迎賓銷售導(dǎo)購(gòu)數(shù)據(jù)收集分析價(jià)格問(wèn)詢等

展廳智能機(jī)器人

展廳智能機(jī)器人可用于接待講解咨詢互動(dòng)價(jià)格查詢等功能
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人未來(lái)3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機(jī)器人上崗門診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無(wú)主燈智能化規(guī)范
» 微波雷達(dá)傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運(yùn)營(yíng)體系(ML0ps)實(shí)踐指
» 四驅(qū)四轉(zhuǎn)移動(dòng)機(jī)器人運(yùn)動(dòng)模型及應(yīng)用分析
» 國(guó)內(nèi)細(xì)分賽道企業(yè)在 AIGC 各應(yīng)用場(chǎng)景
» 國(guó)內(nèi)科技大廠布局生成式 AI,未來(lái)有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場(chǎng)景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場(chǎng)景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時(shí)更短 優(yōu)
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤(rùn)機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國(guó)運(yùn)營(yíng)中心:北京·清華科技園九號(hào)樓5層     中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728