Skip to main content

AI 評估

了解 Dart 和 Flutter 用於衡量 AI 工具可靠性的評估框架。

若要探索評估策略、查看開源資料集與評分準則,或參與社群基準測試資料集, 請造訪 Flutter Evals 程式碼庫

評估 AI 代理程式 (AI agents) 的能力與可靠性,需要採用能模擬實際開發者任務的測試方法。 由於大型語言模型 (LLMs) 具有非確定性, 標準單元測試不足以驗證代理行為,例如 程式碼庫導覽、計畫執行與程式碼合成。

為了建立開發者對 AI 工具的信心, Dart 和 Flutter 採用評估系統(以下簡稱「evals」) 來測試關鍵使用者旅程 (CUJs)。 Evals 透過自動化模型評判和專家人工評分, 同時衡量確定性的程式碼正確性 (編譯、靜態分析、自動化測試)與質化效能 (推理能力、安全性與簡潔性)。