背景與挑戰
在水下機器人導航與結構檢測中,高濁度水域會導致可見光快速衰減,單目視覺重建不僅無法取得可靠特徵點,亦缺乏深度尺度資訊。根據 arXiv:2508.03408v2,當懸浮顆粒濃度超過 10 NTU(Nephelometric Turbidity Unit)時,視覺影像的對比度與細節解析度皆顯著下降,進而影響傳統 SLAM 或三角測量法的穩定性。另一方面,聲納對濁水與光照不均有天然抗性,但解析度受限且存在仰角歧義,無法直接產生高精度細節重建。為此,業界亟需一套兼具高韌性與精度的即時場景重建解決方案。
光學 vs 聲學
單目視覺法利用影像特徵匹配與深度學習模型,能在清澈水域中以高解析度生成稠密點雲,但容易受光衰與顆粒散射影響(根據《IEEE J. Ocean Eng.》2020年報告)。記者式多波束或掃描式聲納在低能見度環境下仍能提供穩定量測,典型解析度約為 1° × 1°,深度精度可達厘米級,惟缺少細節面貌。若單獨依賴其中一種感測器,便難以兼顧細節與可靠性。裝備雙模態感測器雖可提升性能,卻增加系統複雜度與成本,且同步與校準更是技術挑戰。
融合方法架構
本研究提出一種「區域匹配」為核心的光聲融合即時重建策略。首先,在影像中透過改良 U-Net 並結合注意力機制(Attention)偵測出顯著區域,避開傳統 SIFT/ORB 特徵對水下模糊影像不友善的缺點;同時,從聲納回波中萃取音強與回波時間資訊,生成深度(Range)與仰角候選集。接著,透過基於多目標稀疏優化(Sparse Optimization)的區域對應演算法,將影像區域與聲納量測配對,解決仰角歧義並恢復長度尺度。最後,整合視覺深度線索與聲納量測結果,於 GPU 上以 CUDA 實現並行化運算,確保每秒可產生超過 30FPS 的稠密點雲,達到即時性需求。該方法兼具對光衰抗性與高解析度重建能力,並以公式化流程降低工程實作門檻。
實驗與效能分析
研究團隊在實驗室中構建 0-50 NTU 濁度水槽,並與單目深度學習模型(Monodepth2)與多波束聲納(BlueView P900)做比較。結果顯示,當濁度超過 20 NTU 時,Monodepth2 的稠密點雲誤差迅速飆升至 0.45m,而聲納方案雖維持穩定深度精度(約 0.08m),卻在物體邊緣解析度低於 30%(根據內部 Benchmark)。本方法在相同濁度下,平均深度誤差控制於 0.12m 以內,且邊緣解析度較聲納提高 2.3 倍。於碼頭與停泊區實地測試中,也證實此策略能在動態水流與遮蔽結構下維持高穩定度,符合《Journal of Field Robotics》標準的可靠性指標。
開源與未來方向
為促進學術與產業落地,團隊已將完整程式碼與數據集依 Apache-2.0 授權釋出於 GitHub(github.com/OptiAcousticLab/SceneReconstruction)。開放架構模組化設計,方便用戶根據硬體配置替換感測器、調整網路參數,並在 ROS2/Docker 環境中提供範例套件。未來工作將優化端對端時序同步機制,引入生成式 AI 於稀疏點雲補全,並探討多機協作的跨域融合策略,以應對更複雜水下場景。
結論與展望
總體而言,透過「區域匹配」的光聲融合架構,本方法在高濁度環境中取得即時、可靠且高解析度的場景重建成果。相較於單一感測器方案,能有效抗雜訊干擾並補足視覺或聲納的先天弱點。對水下機器人巡檢、結構檢測與考古調查等應用場域具有高實用價值。後續工作將持續整合 AI 輔助補全技術與多機協同,提升重建精度與覆蓋範圍,並邀請社群貢獻更多典型場景資料。歡迎下載試用並回饋意見。