Phoenix：以語音驅動的情境感知數學編輯工作站

Phoenix 系統概述

Phoenix 是一套基於語音輸入的數學編輯工作站，專為減輕書寫數學符號對認知與動作負擔而設計。根據 arXiv:2508.07576v1（連結）所述，本系統結合前端視覺化界面與後端大模型推理，實現上下文感知的自然語言互動，使使用者專注概念解題而非符號輸入。

背景與挑戰

撰寫高階數學符號常涉及複雜的排版語法，如 LaTeX 或 MathML，對具精細動作障礙（FMDs）者更為困難。現有語音數學技術多仰賴逐字指令或命令模式，易造成使用者學習曲線陡峭。根據 IEEE PUNCH report（2023）指出，僅 28％的語音數學工具能有效支援複雜公式輸入，且常見的指令式介面增加了操作開銷。

情境引擎與語境整合

Phoenix 引入自研情境引擎（context engine），在前端即時解析使用者口說與當前編輯狀態，並將結果傳遞給後端 LLM 模組。此機制參考《Cognitive Load Theory》（Sweller et al., 2020），將自然語言敘述轉為結構化數學樹（Math AST），大幅降低指令記憶負擔，同時保留視覺化預覽以便即時校正。

LLM 對認知負擔的影響

Phoenix 採用輕量化 transformer 架構，結合本地微服務化部署與 GPU 加速推理，確保平均回應時間低於 300 毫秒，符合 Nielsen 的交互延遲建議（<300 ms）。根據內部 Benchmark（2024 Q1），系統在複雜公式解析準確度高達 92％，較同儕工具提升 18％；更能以自然語意補全符號漏字，顯著減少額外編輯步驟。

開發流程與性能考量

後端採微服務架構，以 Kubernetes 為調度平台，服務分為語音轉文字、語境解析及數學渲染三大模組。透過 gRPC 進行高效通訊，並利用 Prometheus 監控每秒請求數（RPS）與延遲分布。根據 CNCF 報告（2023），此種分層式部署可降低耦合並提升資源利用率20％以上。

前端體驗與可用性驗證

前端以 React 與 WebAssembly 模組化渲染數學表達式，並整合 NVDA 螢幕閱讀器支援（ARIA 標籤）。針對 FMDs 使用者進行五十餘場可用性測試，並依據 WCAG 2.1 標準進行修正。經 Nielsen Norman Group 實測，系統在第一輪可用性測驗中整體滿意度平均達 4.5／5。

邀請連結：https://www.okx.com/join?channelId=42974376