9 月 27 日消息,科技媒體 ZDNet 昨日(9 月 26 日)發(fā)布博文,報(bào)道稱(chēng) OpenAI 推出名為 GDPval 的全新 AI 評(píng)估基準(zhǔn),旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn),以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距。
盡管當(dāng)前大量 AI 工具涌入市場(chǎng)并承諾提升生產(chǎn)力,但其在企業(yè)中的實(shí)際應(yīng)用效果卻參差不齊。為解決 AI 模型在學(xué)術(shù)基準(zhǔn)測(cè)試與真實(shí)世界表現(xiàn)之間的脫節(jié)問(wèn)題,OpenAI 于周四發(fā)布了一套名為 GDPval 的全新評(píng)估體系,其核心目標(biāo)是“衡量 AI 在具有經(jīng)濟(jì)價(jià)值的真實(shí)世界任務(wù)中的表現(xiàn)”,從而為行業(yè)提供一個(gè)更貼近實(shí)踐的評(píng)判標(biāo)準(zhǔn)。
GDPval 的設(shè)計(jì)深度模擬了真實(shí)工作場(chǎng)景。它覆蓋了對(duì)美國(guó) GDP 貢獻(xiàn)最高的九大行業(yè)中的 44 個(gè)職業(yè),共計(jì) 1320 項(xiàng)具體任務(wù)。這些任務(wù)由平均擁有 14 年相關(guān)領(lǐng)域經(jīng)驗(yàn)的專(zhuān)業(yè)人士創(chuàng)建,確保了其真實(shí)性和復(fù)雜性。

與傳統(tǒng)依賴(lài)文本提示的評(píng)測(cè)不同,GDPval 要求 AI 模型處理文件、生成幻燈片和格式化文檔等多模態(tài)交付物,以此更真實(shí)地檢驗(yàn)?zāi)P驮趯?shí)際工作環(huán)境中的綜合能力。
在首輪測(cè)試中,OpenAI 邀請(qǐng)行業(yè)專(zhuān)家對(duì)多個(gè)前沿模型的輸出進(jìn)行盲評(píng),其中包括自家的 GPT-5、GPT-4o,以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。
評(píng)測(cè)結(jié)果出人意料:Claude Opus 4.1 憑借在文檔格式、幻燈片布局等“美學(xué)”方面的出色表現(xiàn),成為綜合性能最佳的模型;而備受關(guān)注的 GPT-5 則在特定領(lǐng)域知識(shí)的“準(zhǔn)確性”方面拔得頭籌。

該研究還揭示了 AI 模型性能的飛速進(jìn)步與巨大的成本優(yōu)勢(shì)。數(shù)據(jù)顯示,從 2024 年春季發(fā)布的 GPT-4o 到預(yù)計(jì) 2025 年夏季發(fā)布的 GPT-5,模型性能提升超過(guò)一倍。


更引人注目的是,研究發(fā)現(xiàn)前沿模型完成 GDPval 任務(wù)的速度比行業(yè)專(zhuān)家快約 100 倍,成本也僅為后者的百分之一。
不過(guò),OpenAI 強(qiáng)調(diào),這些數(shù)據(jù)僅反映了純粹的模型推理成本,并未包含現(xiàn)實(shí)工作中必要的人工監(jiān)督、迭代和集成步驟。
OpenAI 也坦誠(chéng) GDPval 目前存在局限性。作為一個(gè)初期版本,該基準(zhǔn)主要進(jìn)行一次性任務(wù)評(píng)估,尚無(wú)法衡量模型處理需要多輪修改的復(fù)雜項(xiàng)目或應(yīng)對(duì)充滿(mǎn)模糊性的現(xiàn)實(shí)工作的能力。
例如,它無(wú)法評(píng)估模型根據(jù)客戶(hù)反饋修改方案或處理數(shù)據(jù)異常等動(dòng)態(tài)、交互式的任務(wù)。OpenAI 表示,未來(lái)的迭代將覆蓋更多行業(yè)和更難自動(dòng)化的任務(wù),并會(huì)發(fā)布部分?jǐn)?shù)據(jù)集供研究人員使用。