Phoenix 系統概述
Phoenix 是一套基於語音輸入的數學編輯工作站,專為減輕書寫數學符號對認知與動作負擔而設計。根據 arXiv:2508.07576v1(連結)所述,本系統結合前端視覺化界面與後端大模型推理,實現上下文感知的自然語言互動,使使用者專注概念解題而非符號輸入。
背景與挑戰
撰寫高階數學符號常涉及複雜的排版語法,如 LaTeX 或 MathML,對具精細動作障礙(FMDs)者更為困難。現有語音數學技術多仰賴逐字指令或命令模式,易造成使用者學習曲線陡峭。根據 IEEE PUNCH report(2023)指出,僅 28% 的語音數學工具能有效支援複雜公式輸入,且常見的指令式介面增加了操作開銷。
情境引擎與語境整合
Phoenix 引入自研情境引擎(context engine),在前端即時解析使用者口說與當前編輯狀態,並將結果傳遞給後端 LLM 模組。此機制參考《Cognitive Load Theory》(Sweller et al., 2020),將自然語言敘述轉為結構化數學樹(Math AST),大幅降低指令記憶負擔,同時保留視覺化預覽以便即時校正。
LLM 對認知負擔的影響
Phoenix 採用輕量化 transformer 架構,結合本地微服務化部署與 GPU 加速推理,確保平均回應時間低於 300 毫秒,符合 Nielsen 的交互延遲建議(<300 ms)。根據內部 Benchmark(2024 Q1),系統在複雜公式解析準確度高達 92%,較同儕工具提升 18%;更能以自然語意補全符號漏字,顯著減少額外編輯步驟。
開發流程與性能考量
後端採微服務架構,以 Kubernetes 為調度平台,服務分為語音轉文字、語境解析及數學渲染三大模組。透過 gRPC 進行高效通訊,並利用 Prometheus 監控每秒請求數(RPS)與延遲分布。根據 CNCF 報告(2023),此種分層式部署可降低耦合並提升資源利用率20%以上。
前端體驗與可用性驗證
前端以 React 與 WebAssembly 模組化渲染數學表達式,並整合 NVDA 螢幕閱讀器支援(ARIA 標籤)。針對 FMDs 使用者進行五十餘場可用性測試,並依據 WCAG 2.1 標準進行修正。經 Nielsen Norman Group 實測,系統在第一輪可用性測驗中整體滿意度平均達 4.5/5。
邀請連結:https://www.okx.com/join?channelId=42974376