當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人應(yīng)用 > 基于深度學(xué)習(xí)框架的機(jī)器人觸覺感知研究

基于深度學(xué)習(xí)框架的機(jī)器人觸覺感知研究

來源：-- 編輯：創(chuàng)澤時(shí)間：2020/4/30 主題：其他 [加盟]

機(jī)器人通過收集大量觸覺數(shù)據(jù)來識別物體的方法存在一定的限制。一方面機(jī)器人觸覺傳感器收集大量物體的觸覺數(shù)據(jù)過程資源耗費(fèi)大，另一方面日常生活能接觸到的物體種類龐大。近期在IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS發(fā)表的一篇《A Deep Learning Framework forTactile Recognition of Known as Well as Novel Objects》文章中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的綜合觸覺識別框架，它可以利用對象的語義屬性描述和觸覺數(shù)據(jù)的融合來實(shí)現(xiàn)對新對象的識別。相對于傳統(tǒng)學(xué)習(xí)方法有較大優(yōu)勢，因?yàn)檎Z義信息更容易獲得，可以由人工[1]提供，也可以從語義數(shù)據(jù)庫(如Wikipedia[2])自動挖掘。

1、機(jī)器人觸覺識別總體框架

文中設(shè)計(jì)的總體識別框架，如圖1所示。首先從觸覺數(shù)據(jù)出發(fā)，可以將一個(gè)物體識別為一個(gè)已知的物體(之前接觸過的)或一個(gè)新的物體。已知對象的識別是利用訓(xùn)練數(shù)據(jù)構(gòu)建的多類分類器來實(shí)現(xiàn)的，而新奇對象的識別依賴于基于屬性的ZSL方法。此外，通過一次學(xué)習(xí)(one-shotlearning, OSL)，只從一個(gè)訓(xùn)練樣本開始，就可以實(shí)現(xiàn)觸覺數(shù)據(jù)的合成。

2. 特征生成器G

用訓(xùn)練集訓(xùn)練一個(gè)包含CONVXF和FCFY的神經(jīng)網(wǎng)絡(luò)CNNXY對Y進(jìn)行分類。利用語義屬性向量訓(xùn)練一個(gè)反卷積神經(jīng)網(wǎng)絡(luò)G來合成觸覺特征。為提高特征生成器G的品質(zhì)，使合成的觸覺特征盡可能接近從真實(shí)觸覺數(shù)據(jù)中提取的特征。文中加入另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)D來對抗訓(xùn)練G，其中D用來區(qū)分合成觸覺特征或者真實(shí)的觸覺特征。利用訓(xùn)練好的G，合成觸覺特征。

3. 平臺搭建

文中使用語義屬性集:A ={吸收性、凹凸性、可壓縮性、冷熱、模糊性、硬的、多毛的、金屬的、多孔的、粗糙的、光滑的、柔軟的、固體的、有彈性的、濕軟的、有紋理的、厚的}。使用公開的PHAC-2數(shù)據(jù)集，該數(shù)據(jù)集包含60種物體每一種都在[4]中進(jìn)行了10次試驗(yàn)。數(shù)據(jù)通過SynTouch BioTac觸覺傳感器獲得。對BioTac讀數(shù)進(jìn)行預(yù)處理，并按照[5]中使用BioTac讀數(shù)對A中包含的屬性進(jìn)行二元分類，獲得了一個(gè)由6000個(gè)樣本組成的原始觸覺數(shù)據(jù)集(60種物體每種10個(gè)樣本進(jìn)行10次試驗(yàn))。

文中隨機(jī)選擇6個(gè)對象作為Z，54個(gè)作為Y，為了確保系統(tǒng)對Y和Z選擇具有魯棒性，這個(gè)隨機(jī)過程重復(fù)了七次以生成不同的Z和Y。表1為文中使用的網(wǎng)絡(luò)架構(gòu)。FCFY和FCFZ都是單層全連接網(wǎng)絡(luò)。在卷積層之后是針對非線性的ReLU激活函數(shù)。卷積層和全連接層的權(quán)值都使用Xavier方法[6]進(jìn)行初始化，所有反卷積層都使用Gaussian初始化器進(jìn)行初始化。文中用softmax函數(shù)和多項(xiàng)式邏輯損失訓(xùn)練完全連接層，用交叉熵?fù)p失訓(xùn)練D。

4. 實(shí)驗(yàn)評估

1）目標(biāo)分類

圖2給出了PHAC-2對象及其屬性的例子，以及split 1的測試對象。雖然測試對象(用藍(lán)色框起來)在語義上與訓(xùn)練對象不同，但是這兩個(gè)集合共享相同的屬性，每個(gè)測試對象都有區(qū)別于其他對象的屬性向量。驗(yàn)證了Z和Y之間的共享屬性，驗(yàn)證了中每個(gè)對象的屬性向量的唯一性，從而允許使用文中框架來執(zhí)行ZSL。

圖2 PHAC-2對象及其屬性示例

2）已知對象的多重分類

從每個(gè)中隨機(jī)選取10個(gè)樣本作為測試數(shù)據(jù)，剩下的90個(gè)樣本用于訓(xùn)練CNNXY。表2表示了該框架達(dá)到的識別精度。我們可以看到，識別精度是非常高的。這個(gè)結(jié)果很重要，因?yàn)樗绊懥薈ONVXF的訓(xùn)練，從而也影響了對新對象的識別。

表2 的多類分類的識別精度(%)

3）合成觸覺特征的評估

如果缺少真實(shí)的訓(xùn)練數(shù)據(jù)，則利用合成的特征來訓(xùn)練識別系統(tǒng)。因此，可以單獨(dú)使用合成特征對框架進(jìn)行訓(xùn)練并使用真實(shí)特征進(jìn)行測試，以未知目標(biāo)識別的準(zhǔn)確性程度來評估合成觸覺特征的質(zhì)量。在表3中，測試了在使用真實(shí)觸覺特征和使用合成觸覺特征替代真實(shí)觸覺特征這兩種情況下，系統(tǒng)的識別表現(xiàn)。

表3 使用每個(gè)類0、10、50、90或100個(gè)樣本訓(xùn)練FCFZ后，多類分類(真實(shí)觸覺特征訓(xùn)練)和ZSL(合成觸覺特征)的識別準(zhǔn)確率(%)

從表4中很明顯看到，使用真實(shí)觸覺特征進(jìn)行訓(xùn)練的效果明顯優(yōu)于合成觸覺特征訓(xùn)練。但是，在沒有真實(shí)觸覺信息可用的情況下，多類分類器是無法區(qū)分對象的，會按平均概率進(jìn)行分類。然而，對于所有的對象分類，ZSL卻可以給出一個(gè)高于概率的分類精度。還有，增加訓(xùn)練的合成觸覺特征樣本數(shù)量并不會提高準(zhǔn)確度，這可能是因?yàn)槊總€(gè)類的合成觸覺特征都是由相同的屬性向量（通過添加少量的噪聲）合成的，這種相似性，為一個(gè)對象生成多個(gè)特征會導(dǎo)致過擬合。文中還分析了使用對抗神經(jīng)網(wǎng)絡(luò)的必要性，如果跳過算法2和僅使用算法1訓(xùn)練生成器，那么系統(tǒng)性能會下降，這是因?yàn)楹铣傻挠|覺數(shù)據(jù)與真實(shí)觸覺數(shù)據(jù)有較大差別。

表4有GAN和無GAN的ZSL識別精度(%)

5. 總結(jié)

這篇論文設(shè)計(jì)了一個(gè)觸覺識別框架，利用觸覺數(shù)據(jù)能夠識別已知和未知對象。在對未知對象的識別分類上，精度達(dá)到36%，這是傳統(tǒng)訓(xùn)練模式達(dá)不到的。此外,該框架有效利用輸入的數(shù)據(jù)，如果有足夠的數(shù)據(jù)可用時(shí)，可以達(dá)到較高的多類分類精度。該框架仍然存在一些限制，首先領(lǐng)域移位問題[7]和語義屬性空間與觸覺特征空間的相關(guān)性限制了對新對象的識別。此外該框架能夠識別的新類集合必須是已知的，添加新類需要修改FCFZ的輸出層，同理添加新屬性需要修改的輸入層。此外，文中使用了由[4]設(shè)計(jì)的語義二進(jìn)制屬性。探討非語義屬性和實(shí)值屬性可以提高[8]、[9]識別的準(zhǔn)確性和泛化能力。最后，文中只根據(jù)觸覺數(shù)據(jù)來識別物體，可以結(jié)合視覺進(jìn)一步拓展，如在[10]，[11]�？紤]到CNN在圖像識別和生成[12]方面的良好表現(xiàn)，視觸覺融合識別可以顯著提高識別性能，這是非常有研究價(jià)值的。

查看更多相似文章