數(shù)據(jù)稀缺阻礙具身智能進步?頂尖科學家拋出方案:“大模型+機器視覺”實現(xiàn)零樣本操控機器人
摘要:①李飛飛是世界頂尖的AI專家,現(xiàn)為美國斯坦福大學終身教授、斯坦福大學人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學家; ②李飛飛認為,計算機視覺未來的重點方向就是具身智能; ③隨著人工智能的成熟,人工智能模型的建立正變得越來越容易,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個主要的痛點。
《科創(chuàng)板日報》7月11日訊(編輯 宋子喬)?通過嵌入大語言模型,機器人變得更加智能,將視覺模型也堆上去,機器人會有怎樣的提升呢?
AI科學家李飛飛帶領的團隊日前發(fā)布了具身智能最新成果:大模型接入機器人,把復雜指令轉化成具體行動規(guī)劃,人類可以很隨意地用自然語言給機器人下達指令。更重要的是,通過將LLM(大語言模型)+VLM(視覺語言模型)結合在一起,機器人與環(huán)境進行交互的能力進一步提升,無需額外數(shù)據(jù)和訓練便可完成任務。
李飛飛團隊將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進行額外的預訓練,這個方法讓機器人在零樣本的前提下完成了,解決了機器人訓練數(shù)據(jù)稀缺的問題。
李飛飛是華裔女科學家、世界頂尖的AI專家,現(xiàn)為美國斯坦福大學終身教授、斯坦福大學人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學家。前Open AI研究員、曾擔任特斯拉人工智能和自動駕駛視覺總監(jiān)的Andrej Karpathy便是其得意弟子。
李飛飛研究領域涉及計算機視覺、機器學習、深度學習、認知神經(jīng)科學等,而近年來其關注的重點聚焦在AI智能體,即具身智能。在她看來,計算機視覺未來的重點方向就是具身智能,她認為,具身AI可能會給我們帶來一次重大的轉變,從識別圖像等機器學習的簡單能力,轉變到學習如何通過多個步驟執(zhí)行復雜的類人任務,如制作煎蛋卷。
▌不僅能聽懂人話 還不需要額外數(shù)據(jù)和訓練
回到VoxPoser,為什么說它是具身智能領域的一大突破?當然不是因為李飛飛本人的學術地位。
VoxPoser解決了機器人訓練的一大難題——數(shù)據(jù)稀缺。
VoxPoser的研究工作中,通過將LLM(大語言模型)+VLM(視覺語言模型)結合在一起,可實現(xiàn)“人類自然語言輸入——代碼生成反饋給機器人——機器人收到指令并規(guī)劃路徑——最終完成任務”。
用自然語言(打開上面的抽屜,小心花瓶!)給機器人下達指令后機器人完成
這個流程的意義在于,機器人的交互能力大大提高,通過LLM+VLM擁有了眼睛和理解力,相當于擁有了人類一樣學習能力,即從現(xiàn)實環(huán)境中收集數(shù)據(jù)實時學習,而不是依賴于提前錄入的數(shù)據(jù)庫“遇題找答案”。
李飛飛團隊也表示,這些操作均不需要進行任何訓練或使用基本操作,只要掌握了以上基本流程,就可以完成任何給定任務,實現(xiàn)了在真實世界中的零樣本機器人操縱。
可操作的物體是開放的,不用事先劃定范圍,開瓶子、按開關、拔充電線都能完成
在數(shù)據(jù)對機器學習的重要性和數(shù)據(jù)獲得的難度上,李飛飛有著十足的話語權。她在2006主導構建的ImageNet數(shù)據(jù)集是世界首個用于計算機視覺算法的大規(guī)模人工標注照片數(shù)據(jù)集,它包含了超千萬張有標簽的圖像,可以用來訓練復雜的機器學習模型,被譽為改變人工智能歷史的數(shù)據(jù)集。但這些數(shù)據(jù)的收集、處理工作異常艱巨,來自全球167個國家近5萬名工作者以眾包的方式花費三年時間才完成。
如何解決訓練數(shù)據(jù)稀缺的難題,將成為具身智能乃至人工智能發(fā)展過程中的第一大攔路虎。
在2022年的一篇論文中,李飛飛旗幟鮮明地表示,隨著人工智能的成熟,人工智能模型的建立正變得越來越容易,包括亞馬遜、谷歌和微軟在內的公司都提供自動機器學習(AutoML)產(chǎn)品,允許用戶在自己的數(shù)據(jù)上建立最先進的人工智能模型,而無需編寫任何代碼。但由于規(guī)劃和注釋的成本,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個主要的痛點,創(chuàng)建適當?shù)臄?shù)據(jù)集和數(shù)據(jù)管道以開發(fā)和評估AI模型越來越成為最大的挑戰(zhàn)。
VoxPoser目前還存在著一定的局限性,它依賴于外部感知模塊,仍需要為嵌入的大模型手動輸入提示詞,仍需要通用的動力學模型來完成更豐富的動作等。
不過,VoxPoser已在學術界、業(yè)界引起熱議。一位前微軟研究員評價,這項研究走在了人工智能系統(tǒng)最重要和最復雜的前沿。另有DeepMind研究員、人形機器人初創(chuàng)公司Figure創(chuàng)始人等為這項研報“點贊”。
VoxPoser項目已開辟官網(wǎng),相關論文已上線,代碼即將推出。當下李飛飛團隊只是邁出了第一步。這一框架將有何改進、未來會怎樣應用在機器人產(chǎn)品上,我們拭目以待。