“AI vs 人类”工作能力评测 AI完胜

责任编辑: 国际小编

（伦敦5日综合电）巴克莱分析显示，顶尖AI模型已接近人类专家水平，Claude Opus 4.1获得47.6%胜率领先。AI在零售贸易等领域已超越人类，在软件开发等职业表现优异。更令人震惊的是，AI能力在15个月内提升3倍，呈线性增长趋势。预测未来12-24个月内AI将在大多数工作任务上全面超越人类专家。

OpenAI最新发布的GDPval-v0评测工具首次量化了AI在执行具有经济价值工作任务方面的能力，结果显示AI正迅速追赶甚至逼近人类专业人员水平。巴克莱表示，最先进的AI模型已在诸多职业任务中达到与人类专家相当的能力，并且这种能力提升速度正在加快。

据中国媒体华尔街见闻此前文章写道，OpenAI最新发布了一款名为GDPval-v0的全新评估工具，涵盖美国GDP占比较大的九个商业领域中44个职业的约1300项具体工作任务，从法律文书到工程蓝图再到护理计划等真实工作交付成果。

结果显示，当前最顶尖的AI模型在执行许多职业任务时，其能力已与人类专业人士相当，并且这种能力的提升速度正在加快。10月5日，据硬AI消息，巴克莱在最新研究报告中称，Anthropic的Claude Opus 4.1在与人类专家对比中取得47.6%的”胜利或平局”率，位居榜首。

巴克莱分析师认为，AI模型的”胜率”在过去15个月中线性提升约4倍，预计在未来12-24个月内AI将在大多数工作相关任务上超越人类。分析认为，这一突破为评估AI投资回报率提供了关键数据支撑。

模拟真实工作复杂性

据巴克莱研究报告，GDPval基准测试的核心创新在于其真实性和复杂性。

该评测由平均拥有超过14年行业经验的资深专业人士设计，涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业的1230个专业任务。

与传统基准测试不同，GDPval的任务并非简单文本问答，而是包含参考文件和上下文的复杂场景，要求AI交付多样化成果，包括文档、幻灯片、图表和电子表格等。巴克莱指出，这种设计更贴近现实工作环境的复杂性。

评测采用盲测方式，由行业专家对AI和人类生成的工作成果进行排名，从难度、代表性、完成时间和整体质量等维度进行综合评估。

AI性能接近人类专家水平

巴克莱分析显示，当前最先进的AI模型在多个领域已接近或达到人类专家水平。Claude Opus 4.1以47.6%的胜率领先，GPT-5-high紧随其后，达到38.8%，o3 high为34.1%。

从行业维度看，AI在零售贸易(56%胜率)、批发贸易(53%)和政府部门(52%)的表现超过人类专家，但在信息技术行业表现相对较弱(39%)。

职业层面上，AI在柜台和租赁文员(80%)、运输接收和库存文员(76%)以及软件开发人员(70%)任务中表现最佳，而在工业工程师(17%)和影视编辑(17%)任务中表现较差。

另外，各模型表现出不同特点：Claude Opus 4.1在美学表现(格式和布局)方面表现出色，GPT-5在遵循指令和执行准确计算方面最为精准。

能力提升速度惊人

巴克莱报告特别强调了AI能力提升的速度。

研报称，OpenAI模型在GDPval测试中的表现在15个月内提升了3倍以上，这种线性增长趋势表明AI很可能在短期内全面超越人类专家。

对GPT-5的失误分析显示，尽管该模型仍会犯一些灾难性错误(2.7%)，但47.7%的失误被归类为”可接受但不佳”，22.9%的情况下模型表现甚至优于人类。

巴克莱分析师认为，AI模型的原始智能，特别是GPT-5，已达到超越人类专家的水平。通过更多后期训练(微调、强化学习)，AI全面超越行业专家的时代已为时不远。

文综合报导
图互联网

高兴

惊讶

愤怒

悲伤

支持

听你讲

*本網站有權刪除或封鎖任何具有性別歧視、人身攻擊、庸俗、詆毀或種族主義性質的留言和用戶；必須審核的留言，或將不會即時出現。

AI模型

软件开发

人类专家

“AI vs 人类”工作能力评测 AI完胜

模拟真实工作复杂性

AI性能接近人类专家水平

能力提升速度惊人

AI模型

软件开发

人类专家

相关文章

估值冲上逾3兆 传OpenAI拟融资数百亿美元

程式员不懂AI恐被淘汰 黄仁勋：手写代码将成过去式

使用率大跌至3% DeepSeek延发布 R2模型

美智库：AI模型每7个月能力翻倍 失控恐瓦解民主！

说谎自我繁殖勒索他人 AI快叛变了！？

科技新知｜Google最新AI模型Gemini登场！解锁2大独家功能

估值冲上逾3兆传OpenAI拟融资数百亿美元

程式员不懂AI恐被淘汰黄仁勋：手写代码将成过去式

美智库：AI模型每7个月能力翻倍失控恐瓦解民主！