OTelBench - OpenTelemetry AI 基準測試
AI 能進行 OpenTelemetry 檢測嗎?
分散式追蹤需要將複雜微服務中不同的使用者旅程串聯起來,而不僅僅是編寫獨立的函式。我們測試了頂級模型是否能成功地為應用程式進行 OpenTelemetry 檢測,以了解它們是否已準備好處理實際的網站可靠性工程任務。
模型排名
模型依據修改程式碼以正確發出遙測資料的成功率進行排名。表格包含完整基準測試的總成本和時間,以幫助情境化效能。請參閱我們的完整方法論以了解驗證細節。
檢測任務
cpp-simple
go-microservices-traces
go-grpc-fix
cpp-advanced
python-microservices
go-microservices-logs
js-microservices
go-microservices
net-microservices
php-distributed-context-propagation
cpp-distributed-context-propagation
go-distributed-context-propagation
php-microservices
rust-distributed-context-propagation
erlang-microservices
go-microservices-traces-simple
go-workflow-tracing
java-distributed-context-propagation
java-microservices
python-distributed-context-propagation
ruby-microservices
rust-microservices
swift-microservices
此基準測試涵蓋了包括 .NET、C++、Erlang、Go、Java、JavaScript、PHP、Python、Ruby、Rust 和 Swift 在內的各種語言的程式碼挑戰。我們按難度對其進行排序,其中 0% 通過率的任務代表自動化檢測中目前未解決的問題。
按語言劃分的效能
所有模型在每種程式語言上的平均通過率。擁有更多訓練資料和成熟 OpenTelemetry 函式庫的語言,AI 模型通常更容易正確進行檢測。
模型-任務矩陣
詳細檢視每個模型解決或失敗的任務。這有助於識別即使整體分數較低,但在特定檢測模式方面表現良好的模型。
成本效益
我們將總 API 成本與成功率進行對比。帕雷托前沿(藍線)突顯了在給定效能水平下最具成本效益的模型。
帕雷托前沿
速度與品質
此圖表比較了準確性與平均生成時間,有助於識別在解決方案品質與響應延遲之間取得平衡的模型。
帕雷托前沿
隨時間變化的效能
我們將模型的通過率與其發布日期進行繪製,以追蹤隨時間變化的效能。此時間線顯示了跨模型世代在可觀察性任務上的能力比較。
帕雷托前沿
自己運行
為了可重現性,我們已將完整的基準測試開源至 QuesmaOrg/otel-bench。該基準測試建立在 Harbor 框架之上,您可以驗證我們的發現,測試新模型和代理;請參閱我們的 Migrating CompileBench to Harbor: standardizing AI agent evals。
我們歡迎貢獻新的任務。請參閱儲存庫以了解詳細資訊。