當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人知識(shí) > 機(jī)器人多模態(tài)視覺語言導(dǎo)航技術(shù)解析

機(jī)器人多模態(tài)視覺語言導(dǎo)航技術(shù)解析

來源：算法邦編輯：創(chuàng)澤時(shí)間：2022/4/21 主題：其他 [加盟]

計(jì)算機(jī)視覺（CV）和自然語言處理（NLP）早先是兩個(gè)較為d立的研究L域。CV 重點(diǎn)關(guān)注如何用計(jì)算機(jī)代替人眼對(duì)目標(biāo)完成識(shí)別、跟蹤、測(cè)量等任務(wù)，對(duì)圖像進(jìn)行處理；NLP 則研究計(jì)算機(jī)如何處理、運(yùn)用自然語言，包括語言生成、問答、對(duì)話等任務(wù)。近年來，以深度神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)和模式識(shí)別技術(shù)被廣泛應(yīng)用于 CV 和 NLP L域，取得了目前先進(jìn)的效果。

近年來，研究者們?cè)噲D將動(dòng)作控制也引入到「視覺-語言」任務(wù)的框架中。吳琦將此類任務(wù)命名為 V3A（Vision, Ask, Answer, Act），在給定視覺輸入后，我們希望機(jī)器能夠提出問題、回答問題、并通過和人以及機(jī)器之間的語言交流執(zhí)行某些動(dòng)作。

例如，「Vision+Ask」的任務(wù)包含視覺問題生成、根據(jù)問題生成查詢、圖像描述等；「Vision+Answer」的任務(wù)包含視覺問答、視覺對(duì)話等；「Vision+Act」的任務(wù)包含指稱表達(dá)、視覺對(duì)齊（visual grounding）、語言引導(dǎo)的視覺導(dǎo)航、具身視覺問答、具身指稱表達(dá)等。

查看更多相似文章