Posted inNEWS
AgriVLN:結合視覺與語言的農業機器人導航實戰
農業機器人移動瓶頸隨著精準農業需求日益增長,農業機器人必須具備自主導航能力,才能減少人力成本與增強場域適應性。然而,多數現有解法仍仰賴手動遙控或固定軌道,導致機器人在複雜地形中的機動性不足。根據 arXiv:2508.07406v1(AgriVLN 提案),為了針對真實農田場景開發更具彈性的導航系統,研究者提出了 Agriculture to Agriculture (A2A) 基準,涵蓋六種多樣化農業場域,共1,560個導航任務。所有 RGB 影片皆由高38公分的四足機器人前視相機擷取,完美對應實務部署需求。AgriVLN 架構與 VLM 應用AgriVLN 採用 Vision-Language Model (VLM) 為核心,透過精心設計的 Prompt 模板,讓模型理解「前往灑水孔」、「穿越葡萄藤縫隙」等口語指令。整體管線分為三大模組:影像特徵提取、語言語意解析、動作指令生成。影像端使用 ResNet-50+Transformer 組合(參考《Vision-and-Language Navigation in Continuous Environments》,CoRL 2021),語言端則採用 GPT-3 類似結構處理自然語句,最終透過線性層映射至轉向、前進、停止等基礎動作。實驗結果顯示,單段指令下的成功率可達0.58,展現出強勁的跨模態理解能力(根據 arXiv:2508.07406v1)。子任務拆解提升穩定性針對長指令導致的追蹤困難,AgriVLN…