@howie_serious: llm在操作电脑这件事上,确实已经接近人类水平了。 OSWorld benchmark,测试的就是 llm 像人类一样操作电脑的能力,例如 office 套件、浏览网页、填写网页表单。 人类的基准...
llm在操作电脑这件事上,确实已经接近人类水平了。 OSWorld benchmark,测试的就是 llm 像人类一样操作电脑的能力,例如 office 套件、浏览网页、填写网页表单。 人类的基准水平是72.36%。现在,sonnet 4.6 和opus 4.6 都超过了这条人类线。 仅此一例,可见 llm发展飞速:一年前的今天,最好的模型也就 十几%。距离人类水平“遥不可及”。 ps. gemini 3 pro 没有公布分数。gpt-5.2 是38%。