| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
當?shù)貢r間周四(9月25日) ,人工智能(AI)研究公司OpenAI發(fā)布了一項新的基準測試,用于比較其AI模型與各行業(yè)專業(yè)人士的工作表現(xiàn)。
這項測試名為GDPval,是一次初步嘗試 ,旨在評估OpenAI的系統(tǒng)距離在經(jīng)濟價值工作上超越人類有多近 。而經(jīng)濟價值工作是OpenAI開發(fā)通用人工智能(AGI)的關鍵環(huán)節(jié)。
OpenAI周四表示,其GPT-5模型以及競爭對手Anthropic公司的Claude Opus 4.1“已經(jīng)接近行業(yè)專家的工作質量”。
這并不意味著OpenAI的模型會立刻取代人類工作 。盡管一些CEO預測AI在幾年內就會取代人類,但OpenAI承認GDPval目前只涵蓋人們實際工作中有限的一部分任務。不過 ,這是該公司用來衡量AI向這一里程碑邁進的最新方式之一。
GDPval基于美國GDP貢獻最大的九個行業(yè),包括醫(yī)療、金融 、制造業(yè)和政府等領域 。測試覆蓋了44種職業(yè),從軟件工程師到護士再到記者。
在首個版本GDPval-v0中 ,OpenAI邀請資深專業(yè)人士對比AI生成的報告與其他專業(yè)人士的成果,并挑選出更優(yōu)者。
例如,某項任務要求投行人員為“最后一公里配送行業(yè) ”制作競爭格局分析,并與AI生成的報告進行對比 。OpenAI隨后將AI模型在全部44個職業(yè)中對抗人類報告的“勝率”進行平均計算。
結果顯示 ,GPT-5-high(高算力版本GPT-5)在40.6%的情況下被評為優(yōu)于或與行業(yè)專家持平。
而Anthropic的Claude Opus 4.1模型則在49%的任務中被評為不輸于行業(yè)專家,這一表現(xiàn)超過了OpenAI的模型。
OpenAI對此解釋稱,之所以Claude得分更高 ,部分原因是其傾向于生成更美觀的圖表,而非純粹性能更優(yōu) 。
需要說明的是,大多數(shù)職業(yè)的工作遠不止提交研究報告 ,而這卻是GDPval-v0所測試的全部內容。OpenAI承認這一點,并計劃在未來開發(fā)更全面的測試,涵蓋更多行業(yè)和交互式工作流程。
盡管如此 ,OpenAI仍認為GDPval的進展具有重要意義 。
OpenAI首席經(jīng)濟學家Aaron Chatterji在接受采訪時表示,GDPval的測試結果表明,這些崗位上的人們可以利用AI模型節(jié)省時間 ,從而專注于更有意義的工作。
“因為模型在某些事情上已經(jīng)變得很擅長,隨著能力的提升,人們可以越來越多地把部分工作交給模型,去做潛在更有價值的事情 ,”Chatterji說。
OpenAI評估負責人Tejal Patwardhan表示,她對GDPval的進步速度感到鼓舞 。
Patwardhan指出,約15個月前發(fā)布的GPT-4o模型得分僅為13.7%(勝出或持平人類) ,而GPT-5的成績幾乎提高了三倍。她預計這一趨勢還會繼續(xù)。
配資平臺開戶炒股:實盤股票配資-OpenAI推出更強大的GPT-5模型 適用于編碼和寫作
合肥股票配資:配資平臺網(wǎng)站-GPT-5登場!OpenAI奧特曼:幻覺大幅降低 已從大學生變博士級專家
股票配資最新平臺2024:配資炒股股-OpenAI與甲骨文據(jù)悉加碼“星際之門” 將在美國建立更多數(shù)據(jù)中心
炒股配資平臺選:上海股票配資網(wǎng)站-A股大熱后“存款搬家”又要來?有銀行稱銀證轉賬無明顯變化 部分區(qū)域權益基金銷售走熱
最新股票配資平臺:炒股配資咨詢-9月9日晚間央視新聞聯(lián)播要聞集錦
正規(guī)股票配資平臺排行:免費配資炒股配資平臺-特朗普、普京、澤連斯基一并缺席!俄烏談判推遲至周五舉行
還沒有評論,快來說點什么吧~