Analyzed·分析
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM
Artificial Analysis与IBM联合发布ITBench-AA基准测试,所有前沿模型在SRE任务上得分均低于50%,Claude Opus 4.
Artificial Analysis与IBM Software Innovation Lab于2026年联合推出ITBench-AA,首个面向企业级AI智能体IT任务的基准测试,从Kubernetes事件响应的SRE场景切入。所有前沿模型得分均低于50%,其中Claude Opus 4.
6.5⇅混合◆ 策略投资