newsence
來源篩選

OTelBench: Benchmarking AI Models for OpenTelemetry Instrumentation

Hacker News

A new benchmark, OTelBench, evaluates the ability of top AI models to instrument applications with OpenTelemetry for distributed tracing, assessing their readiness for real-world Site Reliability Engineering tasks.

newsence

OTelBench:為 OpenTelemetry 程式碼插樁評估 AI 模型

Hacker News
大約 1 個月前

AI 生成摘要

一項名為 OTelBench 的新基準測試,評估頂尖 AI 模型為 OpenTelemetry 進行程式碼插樁以實現分散式追蹤的能力,並檢驗其是否準備好應對實際的網站可靠性工程任務。

OTelBench - OpenTelemetry AI 基準測試

AI 能進行 OpenTelemetry 檢測嗎?

分散式追蹤需要將複雜微服務中不同的使用者旅程串聯起來,而不僅僅是編寫獨立的函式。我們測試了頂級模型是否能成功地為應用程式進行 OpenTelemetry 檢測,以了解它們是否已準備好處理實際的網站可靠性工程任務。

模型排名

模型依據修改程式碼以正確發出遙測資料的成功率進行排名。表格包含完整基準測試的總成本和時間,以幫助情境化效能。請參閱我們的完整方法論以了解驗證細節。

檢測任務

cpp-simple

go-microservices-traces

go-grpc-fix

cpp-advanced

python-microservices

go-microservices-logs

js-microservices

go-microservices

net-microservices

php-distributed-context-propagation

cpp-distributed-context-propagation

go-distributed-context-propagation

php-microservices

rust-distributed-context-propagation

erlang-microservices

go-microservices-traces-simple

go-workflow-tracing

java-distributed-context-propagation

java-microservices

python-distributed-context-propagation

ruby-microservices

rust-microservices

swift-microservices

此基準測試涵蓋了包括 .NET、C++、Erlang、Go、Java、JavaScript、PHP、Python、Ruby、Rust 和 Swift 在內的各種語言的程式碼挑戰。我們按難度對其進行排序,其中 0% 通過率的任務代表自動化檢測中目前未解決的問題。

按語言劃分的效能

所有模型在每種程式語言上的平均通過率。擁有更多訓練資料和成熟 OpenTelemetry 函式庫的語言,AI 模型通常更容易正確進行檢測。

模型-任務矩陣

詳細檢視每個模型解決或失敗的任務。這有助於識別即使整體分數較低,但在特定檢測模式方面表現良好的模型。

成本效益

我們將總 API 成本與成功率進行對比。帕雷托前沿(藍線)突顯了在給定效能水平下最具成本效益的模型。

帕雷托前沿

速度與品質

此圖表比較了準確性與平均生成時間,有助於識別在解決方案品質與響應延遲之間取得平衡的模型。

帕雷托前沿

隨時間變化的效能

我們將模型的通過率與其發布日期進行繪製,以追蹤隨時間變化的效能。此時間線顯示了跨模型世代在可觀察性任務上的能力比較。

帕雷托前沿

自己運行

為了可重現性,我們已將完整的基準測試開源至 QuesmaOrg/otel-bench。該基準測試建立在 Harbor 框架之上,您可以驗證我們的發現,測試新模型和代理;請參閱我們的 Migrating CompileBench to Harbor: standardizing AI agent evals。

我們歡迎貢獻新的任務。請參閱儲存庫以了解詳細資訊。