激情五月五月婷婷,国产日韩在线一区二区三区,日韩女优av电影在线观看

9 月 27 日消息，科技媒體 ZDNet 昨日（9 月 26 日）發(fā)布博文，報(bào)道稱(chēng) OpenAI 推出名為 GDPval 的全新 AI 評(píng)估基準(zhǔn)，旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn)，以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距。

盡管當(dāng)前大量 AI 工具涌入市場(chǎng)并承諾提升生產(chǎn)力，但其在企業(yè)中的實(shí)際應(yīng)用效果卻參差不齊。為解決 AI 模型在學(xué)術(shù)基準(zhǔn)測(cè)試與真實(shí)世界表現(xiàn)之間的脫節(jié)問(wèn)題，OpenAI 于周四發(fā)布了一套名為 GDPval 的全新評(píng)估體系，其核心目標(biāo)是“衡量 AI 在具有經(jīng)濟(jì)價(jià)值的真實(shí)世界任務(wù)中的表現(xiàn)”，從而為行業(yè)提供一個(gè)更貼近實(shí)踐的評(píng)判標(biāo)準(zhǔn)。

GDPval 的設(shè)計(jì)深度模擬了真實(shí)工作場(chǎng)景。它覆蓋了對(duì)美國(guó) GDP 貢獻(xiàn)最高的九大行業(yè)中的 44 個(gè)職業(yè)，共計(jì) 1320 項(xiàng)具體任務(wù)。這些任務(wù)由平均擁有 14 年相關(guān)領(lǐng)域經(jīng)驗(yàn)的專(zhuān)業(yè)人士創(chuàng)建，確保了其真實(shí)性和復(fù)雜性。

OpenAI 推出名為 GDPval 的全新 AI 評(píng)估基準(zhǔn)，旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn)，以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距

與傳統(tǒng)依賴(lài)文本提示的評(píng)測(cè)不同，GDPval 要求 AI 模型處理文件、生成幻燈片和格式化文檔等多模態(tài)交付物，以此更真實(shí)地檢驗(yàn)?zāi)Ｐ驮趯?shí)際工作環(huán)境中的綜合能力。

在首輪測(cè)試中，OpenAI 邀請(qǐng)行業(yè)專(zhuān)家對(duì)多個(gè)前沿模型的輸出進(jìn)行盲評(píng)，其中包括自家的 GPT-5、GPT-4o，以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。

評(píng)測(cè)結(jié)果出人意料：Claude Opus 4.1 憑借在文檔格式、幻燈片布局等“美學(xué)”方面的出色表現(xiàn)，成為綜合性能最佳的模型；而備受關(guān)注的 GPT-5 則在特定領(lǐng)域知識(shí)的“準(zhǔn)確性”方面拔得頭籌。

該研究還揭示了 AI 模型性能的飛速進(jìn)步與巨大的成本優(yōu)勢(shì)。數(shù)據(jù)顯示，從 2024 年春季發(fā)布的 GPT-4o 到預(yù)計(jì) 2025 年夏季發(fā)布的 GPT-5，模型性能提升超過(guò)一倍。

更引人注目的是，研究發(fā)現(xiàn)前沿模型完成 GDPval 任務(wù)的速度比行業(yè)專(zhuān)家快約 100 倍，成本也僅為后者的百分之一。

不過(guò)，OpenAI 強(qiáng)調(diào)，這些數(shù)據(jù)僅反映了純粹的模型推理成本，并未包含現(xiàn)實(shí)工作中必要的人工監(jiān)督、迭代和集成步驟。

OpenAI 也坦誠(chéng) GDPval 目前存在局限性。作為一個(gè)初期版本，該基準(zhǔn)主要進(jìn)行一次性任務(wù)評(píng)估，尚無(wú)法衡量模型處理需要多輪修改的復(fù)雜項(xiàng)目或應(yīng)對(duì)充滿(mǎn)模糊性的現(xiàn)實(shí)工作的能力。

例如，它無(wú)法評(píng)估模型根據(jù)客戶(hù)反饋修改方案或處理數(shù)據(jù)異常等動(dòng)態(tài)、交互式的任務(wù)。OpenAI 表示，未來(lái)的迭代將覆蓋更多行業(yè)和更難自動(dòng)化的任務(wù)，并會(huì)發(fā)布部分?jǐn)?shù)據(jù)集供研究人員使用。

OpenAI 推出名為 GDPval 的全新 AI 評(píng)估基準(zhǔn)，旨在衡量前沿模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)中的表現(xiàn)，以彌補(bǔ)學(xué)術(shù)測(cè)試與實(shí)際應(yīng)用間的差距

免費(fèi)教學(xué)更多>>