首頁(yè)
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁(yè) > 新聞資訊 > 電商 > FashionBERT 電商領(lǐng)域多模態(tài)研究:如何做圖文擬合  
 

FashionBERT 電商領(lǐng)域多模態(tài)研究:如何做圖文擬合

來(lái)源:阿里機(jī)器智能      編輯:創(chuàng)澤      時(shí)間:2020/6/2      主題:其他   [加盟]
隨著 Web 技術(shù)發(fā)展,互聯(lián)網(wǎng)上包含大量的多模態(tài)信息(包括文本,圖像,語(yǔ)音,視頻等)。從海量多模態(tài)信息搜索出重要信息一直是學(xué)術(shù)界研究重點(diǎn)。多模態(tài)匹配核心就是圖文匹配技術(shù) (Text and Image Matching),這也是一項(xiàng)基礎(chǔ)研究,在非常多的領(lǐng)域有很多應(yīng)用,例如圖文檢索 (Cross-modality IR),圖像標(biāo)題生成 (Image Caption),圖像問(wèn)答系統(tǒng) (Vision Question Answering), 圖像知識(shí)推理 (Visual Commonsense Reasoning)。但是目前學(xué)術(shù)界研究重點(diǎn)放在通用領(lǐng)域的多模態(tài)研究,針對(duì)電商領(lǐng)域的多模態(tài)研究相對(duì)較少,然而電商領(lǐng)域也非常需要多模態(tài)匹配模型,應(yīng)用場(chǎng)景特別多。本文重點(diǎn)關(guān)注電商領(lǐng)域圖文多模態(tài)技術(shù)研究。

多模態(tài)匹配研究簡(jiǎn)史

跨模態(tài)研究核心重點(diǎn)在于如何將多模態(tài)數(shù)據(jù)匹配上,即如何將多模態(tài)信息映射到統(tǒng)一的表征空間。早期研究主要分成兩條主線(xiàn):Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通過(guò)分析圖像和文本的 correlation,然后將圖像和文本到同一空間。這一系列的問(wèn)題論文完美,但是效果相對(duì)深度學(xué)習(xí)方法還是有待提高的。雖然后期也有基于深度學(xué)習(xí)的方案 (DCCA),但是對(duì)比后面的 VSE 方法還有一定差距。

VSE 系統(tǒng)方法

將圖像和文本分別表示成 Latent Embedding,然后將多模態(tài) Latent Embedding 擬合到同一空間。VSE 方法又延伸出來(lái)非常多的方法例如 SCAN,PFAN。這些方法在通用圖文匹配上已經(jīng)拿到不錯(cuò)效果。

隨著 pre-training 和 self-supervised 技術(shù)在 CV 和 NLP 領(lǐng)域的應(yīng)用。2019 年開(kāi)始,有學(xué)者開(kāi)始嘗試基于大規(guī)模數(shù)據(jù),使用預(yù)訓(xùn)練的 BERT 模型將圖文信息擬合同一空間。這些方法在通用領(lǐng)域取得很好的效果,這一系列的方法可以參看 VLBERT 這篇 Paper。

基于 BERT 的預(yù)訓(xùn)練圖文模型的主要流程:

1)利用圖像目標(biāo)檢測(cè)技術(shù)先識(shí)別圖像中的 Region of Interests(RoIs)。

2)把 ROI 當(dāng)做圖像的 token,和文本 token 做 BERT 多模態(tài)融合,這里面有兩個(gè)方案:

Single-stream:以 VLBERT 為代表,直接將圖像 token 和文本 token 放入到 BERT 做多模態(tài)融合。

Cross-stream:以 ViLBERT 為代表,將圖像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

我們嘗試了 ViLBERT 方法,發(fā)現(xiàn)在通用領(lǐng)域效果確實(shí)不錯(cuò)。但是在電商領(lǐng)域,由于提取的 ROI 并不理想,導(dǎo)致效果低于預(yù)期。主要原因在于:

1)電商圖像 ROI 太少

電商圖像產(chǎn)品單一,背景簡(jiǎn)單提取 ROI 很少,如圖 1(c)。統(tǒng)計(jì)來(lái)看,通用領(lǐng)域 MsCoCo 數(shù)據(jù),每張圖像可以提取 19.8 個(gè) ROI,但是電商只能提取 6.4 個(gè) ROI。當(dāng)然我們可以強(qiáng)制提取最小的 ROI,比如 ViLBERT 要求在 10~36 個(gè),VLBERT 要求 100 個(gè)。但是當(dāng)設(shè)定最小提取的 ROI 后,又提取了太多了重復(fù)的 ROI,可以看圖 1(e)。

2)電商 ROI 不夠 fine-grained

電商圖像單一,提取的 RoIs 主要是 object-level 的產(chǎn)品 (例如,整體連衣裙,T-shirt 等) 。相對(duì)文本來(lái)說(shuō),不夠細(xì)粒度 fine-grain,比如文本里面可以描述主體非常細(xì)節(jié)屬性 (如,圓領(lǐng),九分褲,七分褲等等)。這就導(dǎo)致圖像 ROI 不足以和文本 token 匹配,大家可以對(duì)比一下電商領(lǐng)域的圖 1(c) 和圖 1(d)。再看下通用領(lǐng)域的圖 1(a) 和圖 1(b),你會(huì)發(fā)現(xiàn)通用領(lǐng)域簡(jiǎn)單一些,只要能將圖像中的主體和文本 token alignment 到一起,基本不會(huì)太差。

3)電商圖像 ROI 噪音太大

如圖 1(f) 中提取的模特頭,頭發(fā),手指,對(duì)于商品匹配來(lái)說(shuō)用處不大。

這也就解釋了,電商領(lǐng)域也采用現(xiàn)有的 ROI 方式,并不能得到非常理想的結(jié)果。如果說(shuō),針對(duì)電商領(lǐng)域重新訓(xùn)練一個(gè)電商領(lǐng)域的 ROI 提取模型,需要大量的數(shù)據(jù)標(biāo)注工作。那么有沒(méi)有簡(jiǎn)單易行的方法做圖文匹配擬合。




FashionBERT 圖文匹配模型

本文我們提出了 FashionBERT 圖文匹配模型,核心問(wèn)題是如何解決電商領(lǐng)域圖像特征的提取或者表達(dá)。Google 在 2019 年年中發(fā)表了一篇文章圖像自監(jiān)督學(xué)習(xí)模型 selfie,主要思路是將圖像分割成子圖,然后預(yù)測(cè)子圖位置信息。從而使模型達(dá)到理解圖像特征的目的,這個(gè)工作對(duì)我們啟發(fā)很大。我們直接將圖像 split 相同大小的 Patch,然后將 Patch 作為圖像的 token,和文本進(jìn)行擬合,如圖二所示。使用 Patch 的好處:

圖像 Patch 包含了所有圖像的細(xì)節(jié)信息。

圖像 Patch 不會(huì)出現(xiàn)重復(fù)的 ROI 或者太多無(wú)用的 ROI。

圖像 Patch 是天然包含順序的,所以解決 BERT 的 sequence 問(wèn)題。

FashionBERT 整體結(jié)構(gòu)如圖 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一樣,先將句子分成 Token,然后我們采用 Whole Word Masking 技術(shù)將整個(gè) Token 進(jìn)行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 類(lèi)似,這里我們將圖片平均分成 8*8 個(gè) patch。每個(gè) Patch 經(jīng)過(guò) ResNet 提取 patch 的圖像特征,我們提取 2048 維圖像特征。Patch mask 策略,我們隨機(jī) masked 10% 的 patch,masked 的 patch 用 0 代替。同時(shí)在 Segment 字段我們分別用 "T" 和 "I" 區(qū)分文 本token 輸入和圖像 patch 輸入。

Cross-modality FashionBERT

采用預(yù)訓(xùn)練的 BERT 為網(wǎng)絡(luò),這樣語(yǔ)言模型天然包含在 FashionBERT 中。模型可以更加關(guān)注圖文匹配融合。

FashionBERT 模型在 pretrain 階段,總共包含了三個(gè)任務(wù):

1  Masked Language Modeling (MLM)

預(yù)測(cè) Masked Text Token,這個(gè)任務(wù)訓(xùn)練和參數(shù)我們保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

預(yù)測(cè) Masked Patch,這個(gè)任務(wù)和 MLM 類(lèi)似。但是由于圖像中沒(méi)有 id 化的 token。這里我們用 patch 作為目標(biāo),希望 BERT 可以重構(gòu) patch 信息,這里我們選用了 KLD 作為 loss 函數(shù)。

3  Text and Image Alignment

和 Next Sentence Prediction 任務(wù)類(lèi)似,預(yù)測(cè)圖文是否匹配。正樣本是產(chǎn)品標(biāo)題和圖片,負(fù)樣本我們隨機(jī)采樣同類(lèi)目下其他產(chǎn)品的圖片作為負(fù)樣本。

這是一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題,如何平衡這些任務(wù)的學(xué)習(xí)權(quán)重呢?另外,還有一個(gè)問(wèn)題,目前很多實(shí)驗(yàn)指出 BERT 中 NSP 的效果并不一定非常有效,對(duì)最終的結(jié)果的影響不是特別明朗。但是對(duì)于圖文匹配來(lái)說(shuō),Text and Image Alignment 這個(gè) loss 是至關(guān)重要的。那么如何平衡這幾個(gè)任務(wù)的學(xué)習(xí)呢?這里我們提出 adaptive loss 算法,我們將學(xué)習(xí)任務(wù)的權(quán)重看做是一個(gè)新的優(yōu)化問(wèn)題,如圖 3 所示。FashionBERT 的 loss 是整體 loss 的加和,由于只有三個(gè)任務(wù),其實(shí)我們可以直接得到任務(wù)權(quán)重 W 的解析解(具體的求解過(guò)程可以參考我們論文,這里不再贅述)。

整個(gè) w 的學(xué)習(xí)過(guò)程可以看做是一個(gè)學(xué)生想學(xué)習(xí)三門(mén)功課,w 的作用是控制學(xué)習(xí)的關(guān)注度,一方面控制別偏科,一方面總成績(jī)要達(dá)到最高。具體 adaptive loss 算法,可以參看論文。從實(shí)際的效果來(lái)看 w,隨著訓(xùn)練的迭代關(guān)注不同的任務(wù),達(dá)到對(duì)任務(wù)做平衡的目的。

業(yè)務(wù)應(yīng)用

目前 FashionBERT 已經(jīng)開(kāi)始在 Alibaba 搜索多模態(tài)向量檢索上應(yīng)用,對(duì)于搜索多模態(tài)向量檢索來(lái)說(shuō),匹配任務(wù)可以看成是一個(gè)文文圖匹配任務(wù),即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配關(guān)系。FashionBERT 從上面的模型可以看到是一個(gè)基礎(chǔ)的圖文匹配模型,因此我們做了 Continue Pretrain 工作,同時(shí)加入 Query,Title,Image Segment 區(qū)分,如圖四所示。和 FashionBERT 最大的區(qū)別在于我們引入三個(gè) segment 類(lèi)型,“Q”,“T”,“I” 分別代表 Query,Title,Image。






迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶(hù)星空、瞳步智能

賽迪觀(guān)點(diǎn):再提現(xiàn)代制造業(yè),西部大開(kāi)發(fā)賦予制造業(yè)發(fā)展新方向

中共中央國(guó)務(wù)院關(guān)于新時(shí)代推進(jìn)西部大開(kāi)發(fā)形成新格局的指導(dǎo)意見(jiàn)》發(fā)布,明確提出要充分發(fā)揮西部地區(qū)比較優(yōu)勢(shì),推動(dòng)具備條件的產(chǎn)業(yè)集群化發(fā)展

基于深度學(xué)習(xí)目標(biāo)檢測(cè)模型優(yōu)缺點(diǎn)對(duì)比

深度學(xué)習(xí)模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)比

SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標(biāo)檢測(cè)算法優(yōu)缺點(diǎn)對(duì)比及使用場(chǎng)合比較

兩大項(xiàng)目落地城陽(yáng),意向總投資達(dá)50億元

5月30日上午,中科院理化技術(shù)研究所青島未來(lái)大健康技術(shù)創(chuàng)新研究院項(xiàng)目和創(chuàng)澤人工智能項(xiàng)目簽約儀式順利舉行,兩大項(xiàng)目落地城陽(yáng),意向總投資達(dá)50億元

太空旅行時(shí)代到了!馬斯克載人飛船發(fā)射成功

馬斯克創(chuàng)辦的民營(yíng)航天公司SpaceX將兩名NASA的宇航員Doug Hurley和Bob Behnken送入太空

馬斯克,人類(lèi)的下一個(gè)哥倫布

馬斯克認(rèn)為,終有一天坐飛船會(huì)像坐飛機(jī)一樣實(shí)惠、便利,“SpaceX將使得太空旅行像航空旅行一樣簡(jiǎn)單!

山東省申報(bào)第二批全國(guó)鄉(xiāng)村旅游重點(diǎn)村擬推薦名單

索引號(hào):11370000MB2847723P/2020-00101,確定擬推薦濟(jì)南市長(zhǎng)清區(qū)馬套村等40個(gè)單位申報(bào)第二批全國(guó)鄉(xiāng)村旅游重點(diǎn)村,現(xiàn)將名單予以公示,公示期自即日起至6月1日

山西省城市生活垃圾分類(lèi)管理規(guī)定

2020年4月13日,山西省人民政府第65次常務(wù)會(huì)議通過(guò)《山西省城市生活垃圾分類(lèi)管理規(guī)定》

5G+人工智能:全面賦能未來(lái)社區(qū)智能升級(jí)

利用 AI 算法和相關(guān)數(shù)據(jù)分析,建立社區(qū)民眾生活、商家運(yùn)營(yíng)、物業(yè)服務(wù)的全場(chǎng)景連接,全面提升未來(lái)社區(qū)的便捷智能感受

5G+物聯(lián)網(wǎng):全力推動(dòng)未來(lái)社區(qū)萬(wàn)物互聯(lián)

5G 作為新一代通信技術(shù),全面連接社區(qū)內(nèi)人、機(jī)、物,使得科技與人文的結(jié)合全面滲透到社區(qū)的生活、服務(wù)、治理各方面,讓未來(lái)社區(qū)成為萬(wàn)物互聯(lián)的社區(qū)

杭州步行街智慧街區(qū)

實(shí)時(shí)感知街區(qū)動(dòng)態(tài),通過(guò)對(duì)客流趨勢(shì)、客流密度等信息的分析,實(shí)時(shí)掌握街區(qū)動(dòng)態(tài),避免踩踏等不安全事件的發(fā)生。項(xiàng)目的建設(shè)開(kāi)啟了現(xiàn)代化街區(qū)智慧管理、智慧服務(wù)的新篇章

迎賓機(jī)器人企業(yè)【推薦】

2022年迎賓機(jī)器人企業(yè):優(yōu)必選、穿山甲、創(chuàng)澤智能、慧聞科技、杭州艾米、廣州卡伊瓦、勇藝達(dá)、睿博天米、銳曼智能、康力優(yōu)藍(lán)、云跡科技、南大電子、獵戶(hù)星空、瞳步智能

山東機(jī)器人公司準(zhǔn)獨(dú)角獸企業(yè)-創(chuàng)澤智能

山東機(jī)器人公司,創(chuàng)澤機(jī)器人榮獲山東省工信廳人工智能領(lǐng)域的準(zhǔn)獨(dú)角獸的稱(chēng)號(hào),是中國(guó)工信部人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜優(yōu)勝單位

消毒機(jī)器人優(yōu)勢(shì)、技術(shù)及未來(lái)發(fā)展趨勢(shì)

消毒機(jī)器人有哪些優(yōu)勢(shì),未來(lái)發(fā)展趨勢(shì)

家庭陪護(hù)機(jī)器人

家庭陪護(hù)機(jī)器人能在家中起到監(jiān)控安全陪護(hù)具有人機(jī)互動(dòng)交互服務(wù)多媒體娛樂(lè)價(jià)格查詢(xún)等

兒童陪護(hù)機(jī)器人

兒童陪護(hù)機(jī)器人與孩子互動(dòng)陪伴玩耍學(xué)習(xí)價(jià)格問(wèn)詢(xún)等功能說(shuō)明使用指南介紹

展館智能機(jī)器人

展館智能機(jī)器人可講解自主行走語(yǔ)音交互咨詢(xún)互動(dòng)價(jià)格咨詢(xún)等功能介紹以及表情展現(xiàn)能力

智能講解機(jī)器人

智能講解機(jī)器人正在劍橋講解演示咨詢(xún)互動(dòng)移動(dòng)宣傳價(jià)格問(wèn)詢(xún)等功能說(shuō)明介紹

智能接待機(jī)器人

智能接待機(jī)器人迎賓服務(wù)來(lái)賓問(wèn)詢(xún)答疑價(jià)格查詢(xún)

智能主持機(jī)器人

智能主持機(jī)器人參與主持了寧夏的云天大會(huì)并完成了大會(huì)的接待任務(wù)多才多藝載很受歡迎

超市智能機(jī)器人

超市智能機(jī)器人能幫助商家吸引客戶(hù)道路指引導(dǎo)購(gòu)價(jià)格查詢(xún)

4s店智能機(jī)器人

4s店智能機(jī)器人迎賓銷(xiāo)售導(dǎo)購(gòu)數(shù)據(jù)收集分析價(jià)格問(wèn)詢(xún)等

展廳智能機(jī)器人

展廳智能機(jī)器人可用于接待講解咨詢(xún)互動(dòng)價(jià)格查詢(xún)等功能
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人未來(lái)3-5年能夠?qū)崿F(xiàn)產(chǎn)業(yè)化的方
» 導(dǎo)診服務(wù)機(jī)器人上崗門(mén)診大廳 助力醫(yī)院智慧
» 山東省青島市政府辦公廳發(fā)布《數(shù)字青島20
» 關(guān)于印發(fā)《青海省支持大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策措
» 全屋無(wú)主燈智能化規(guī)范
» 微波雷達(dá)傳感技術(shù)室內(nèi)照明應(yīng)用規(guī)范
» 人工智能研發(fā)運(yùn)營(yíng)體系(ML0ps)實(shí)踐指
» 四驅(qū)四轉(zhuǎn)移動(dòng)機(jī)器人運(yùn)動(dòng)模型及應(yīng)用分析
» 國(guó)內(nèi)細(xì)分賽道企業(yè)在 AIGC 各應(yīng)用場(chǎng)景
» 國(guó)內(nèi)科技大廠(chǎng)布局生成式 AI,未來(lái)有望借
» AIGC領(lǐng)域相關(guān)初創(chuàng)公司及業(yè)務(wù)場(chǎng)景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業(yè)化空間前景廣闊應(yīng)用場(chǎng)景豐富
» AI 內(nèi)容創(chuàng)作成本大幅降低且耗時(shí)更短 優(yōu)
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤(pán)

機(jī)器人底盤(pán)

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤(pán)  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤(pán)  講解機(jī)器人  紫外線(xiàn)消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤(pán)  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠(chǎng)  消毒機(jī)器人排名  智能配送機(jī)器人  圖書(shū)館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤(rùn)機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國(guó)運(yùn)營(yíng)中心:北京·清華科技園九號(hào)樓5層     中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷(xiāo)售1:4006-935-088    銷(xiāo)售2:4006-937-088   客服電話(huà): 4008-128-728