AI在专业领域的表现已超过人类专家，尤其在科学推理方面。

GPQA（研究生级Google-Proof问答基准）是评估AI能力的挑战性测试，包含生物、物理和化学领域的448个多选题，设计目的是“Google-Proof”，即无法通过简单网络搜索解决。

根据GPQA研究论文，人类专家（拥有或正在攻读相关领域博士学位者）准确率约为65%（剔除明显错误后为74%），而非专家验证者即使花费30分钟网络搜索，准确率仅34%。AI模型表现也不俗，最新数据显示，Anthropic的Claude 3.5 Sonnet在GPQA Diamond（198个最难题）零射链式思维准确率达59.4%，OpenAI的GPT-4 Opus（0513）为53.6%（Klu AI词典）。这表明AI在复杂科学推理上的能力已接近人类专家，且性能曲线快速上升。