惠州股票配資:免費配資炒股配資平臺-OpenAI最新測試：GPT-5與Claude在部分工作中可媲美人類專家

摘要：　　當?shù)貢r間周四（9月25日），人工智能（AI）研究公司OpenAI發(fā)布了一項新的基準測試，用于比較其AI模型與各行業(yè)專業(yè)人士的工作表現(xiàn)。　　這項測試名為GDPval...

代碼	名稱	當前價	漲跌幅	最高價	最低價	成交量(萬)

　　當?shù)貢r間周四（9月25日），人工智能（AI）研究公司OpenAI發(fā)布了一項新的基準測試，用于比較其AI模型與各行業(yè)專業(yè)人士的工作表現(xiàn)。

　　這項測試名為GDPval，是一次初步嘗試，旨在評估OpenAI的系統(tǒng)距離在經(jīng)濟價值工作上超越人類有多近。而經(jīng)濟價值工作是OpenAI開發(fā)通用人工智能（AGI）的關鍵環(huán)節(jié)。

　　OpenAI周四表示，其GPT-5模型以及競爭對手Anthropic公司的Claude Opus 4.1“已經(jīng)接近行業(yè)專家的工作質量”。

　　這并不意味著OpenAI的模型會立刻取代人類工作。盡管一些CEO預測AI在幾年內就會取代人類，但OpenAI承認GDPval目前只涵蓋人們實際工作中有限的一部分任務。不過，這是該公司用來衡量AI向這一里程碑邁進的最新方式之一。

　　GDPval基于美國GDP貢獻最大的九個行業(yè)，包括醫(yī)療、金融、制造業(yè)和政府等領域。測試覆蓋了44種職業(yè)，從軟件工程師到護士再到記者。

　　在首個版本GDPval-v0中，OpenAI邀請資深專業(yè)人士對比AI生成的報告與其他專業(yè)人士的成果，并挑選出更優(yōu)者。

　　例如，某項任務要求投行人員為“最后一公里配送行業(yè) ”制作競爭格局分析，并與AI生成的報告進行對比。OpenAI隨后將AI模型在全部44個職業(yè)中對抗人類報告的“勝率”進行平均計算。

　　結果顯示，GPT-5-high（高算力版本GPT-5）在40.6%的情況下被評為優(yōu)于或與行業(yè)專家持平。

　　而Anthropic的Claude Opus 4.1模型則在49%的任務中被評為不輸于行業(yè)專家，這一表現(xiàn)超過了OpenAI的模型。

　　OpenAI對此解釋稱，之所以Claude得分更高，部分原因是其傾向于生成更美觀的圖表，而非純粹性能更優(yōu) 。

　　需要說明的是，大多數(shù)職業(yè)的工作遠不止提交研究報告，而這卻是GDPval-v0所測試的全部內容。OpenAI承認這一點，并計劃在未來開發(fā)更全面的測試，涵蓋更多行業(yè)和交互式工作流程。

　　盡管如此，OpenAI仍認為GDPval的進展具有重要意義。

　　OpenAI首席經(jīng)濟學家Aaron Chatterji在接受采訪時表示，GDPval的測試結果表明，這些崗位上的人們可以利用AI模型節(jié)省時間，從而專注于更有意義的工作。

　　“因為模型在某些事情上已經(jīng)變得很擅長，隨著能力的提升，人們可以越來越多地把部分工作交給模型，去做潛在更有價值的事情，”Chatterji說。

　　OpenAI評估負責人Tejal Patwardhan表示，她對GDPval的進步速度感到鼓舞。

　　Patwardhan指出，約15個月前發(fā)布的GPT-4o模型得分僅為13.7%（勝出或持平人類），而GPT-5的成績幾乎提高了三倍。她預計這一趨勢還會繼續(xù)。

你可能想看：

評論列表

還沒有評論，快來說點什么吧~

51成人精品网站_免费av不卡_乌克兰毛片_亚洲专区在线_性生生活大片又黄又_亚洲线精品一区二区三区影音先锋