anitahityou
@anitahityou
AI在专业领域的表现已超过人类专家,尤其在科学推理方面。 GPQA(研究生级Google-Proof问答基准)是评估AI能力的挑战性测试,包含生物、物理和化学领域的448个多选题,设计目的是“Google-Proof”,即无法通过简单网络搜索解决。 根据GPQA研究论文,人类专家(拥有或正在攻读相关领域博士学位者)准确率约为65%(剔除明显错误后为74%),而非专家验证者即使花费30分钟网络搜索,准确率仅34%。AI模型表现也不俗,最新数据显示,Anthropic的Claude 3.5 Sonnet在GPQA Diamond(198个最难题)零射链式思维准确率达59.4%,OpenAI的GPT-4 Opus(0513)为53.6%(Klu AI词典)。这表明AI在复杂科学推理上的能力已接近人类专家,且性能曲线快速上升。
0 reply
0 recast
1 reaction