不過(guò),英國(guó)《新科學(xué)家》網(wǎng)站在12月22日的報(bào)道中指出,盡管o3“實(shí)現(xiàn)了令人矚目的性能飛躍”,但仍未達(dá)到業(yè)內(nèi)翹首以盼的通用AI(AGI)水平。
多方面表現(xiàn)出色
OpenAI公司透露,在解決更復(fù)雜的多步驟問(wèn)題時(shí),o3模型會(huì)花更多時(shí)間計(jì)算答案,然后再給出回應(yīng)。這一推理能力的提升,使o3在多項(xiàng)測(cè)試中表現(xiàn)出色。
大型語(yǔ)言模型熱衷于在各種數(shù)學(xué)基準(zhǔn)測(cè)試上瘋狂“刷分”,o3也不例外。在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽中,o3模型的準(zhǔn)確率高達(dá)96.7%,僅答錯(cuò)了一個(gè)問(wèn)題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測(cè)試之一——Frontier Math中,o3也解決了25.2%的問(wèn)題。盡管這一得分看似不高,但此前其他大型語(yǔ)言模型曾在此“集體翻車(chē)”,正確率均未超過(guò)2%。
Frontier Math測(cè)試難度極大,曾被華裔數(shù)學(xué)家、菲爾茲獎(jiǎng)得主陶哲軒評(píng)價(jià)為“可能會(huì)難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類(lèi)數(shù)學(xué)家則要花費(fèi)數(shù)小時(shí)到數(shù)天。
在對(duì)科學(xué)知識(shí)的掌握方面,o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級(jí)科學(xué)問(wèn)題上的表現(xiàn),涵蓋化學(xué)、物理和生物學(xué)方面的專(zhuān)業(yè)知識(shí))基準(zhǔn)測(cè)試中,o3的準(zhǔn)確率達(dá)到87.7%,超過(guò)了人類(lèi)博士的70%,也比之前o1表現(xiàn)高近10%。
此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問(wèn)題的能力)基準(zhǔn)上,o3的準(zhǔn)確率約為71.7%,比o1高20%以上。在Codeforces編碼競(jìng)賽平臺(tái)中,o3的得分為2727,相當(dāng)于榜單上第175名人類(lèi)編程員的水平,而o1得分僅為1891。
在展示了o3取得的這些傲人成績(jī)后,OpenAI首席執(zhí)行官奧爾特曼強(qiáng)調(diào),o3的出現(xiàn)標(biāo)志著AI進(jìn)入了下一個(gè)發(fā)展階段,這些模型可處理需要大量推理的復(fù)雜任務(wù)。
與人類(lèi)智能仍有差異
《新科學(xué)家》網(wǎng)站還報(bào)道,在被視為AGI重要衡量標(biāo)準(zhǔn)的抽象與推理語(yǔ)料庫(kù)-AGI(ARC-AGI)大賽中,o3模型也創(chuàng)下新紀(jì)錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項(xiàng)大獎(jiǎng)得主的測(cè)試具有更嚴(yán)格的算力限制,在該算力限制下,o3的挑戰(zhàn)以失敗告終。
不過(guò),在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績(jī),達(dá)到了代表人類(lèi)水平的85%門(mén)檻。
對(duì)于o3的表現(xiàn),谷歌前工程師、ARC-AGI主要?jiǎng)?chuàng)建者弗朗索瓦·肖萊在博客中寫(xiě)道,這是AI能力的一次驚人且重要的躍升。但o3尚未實(shí)現(xiàn)AGI,因?yàn)槠淙匀粺o(wú)法解決ARC-AGI比賽中一些非常簡(jiǎn)單的問(wèn)題,這表明其與人類(lèi)智能存在根本差異。
AGI是一個(gè)假想中的未來(lái)系統(tǒng),它能夠模仿人類(lèi)思維、決策,擁有自我意識(shí),并能自主行動(dòng)。然而,AGI目前主要活躍在科幻作品中,尚未走進(jìn)現(xiàn)實(shí)。
升級(jí)迭代并非易事
o3不僅是OpenAI公司的最新力作,也是AI巨頭競(jìng)逐大型語(yǔ)言模型的生動(dòng)寫(xiě)照。
兩年前,OpenAI發(fā)布了ChatGPT,由此拉開(kāi)了AI軍備競(jìng)賽的序幕。從GPT-3.5到更準(zhǔn)確、更具創(chuàng)造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進(jìn)自家產(chǎn)品。
其他頂級(jí)AI開(kāi)發(fā)商也在利用日益先進(jìn)的技術(shù),推動(dòng)自家產(chǎn)品迭代升級(jí)。此前不久,谷歌推出了其旗艦?zāi)P?ldquo;雙子座”(Gemini)的新版本,據(jù)稱(chēng)其速度是上一代的兩倍,并且能夠“思考、記憶、規(guī)劃,甚至替代用戶(hù)采取行動(dòng)”。元宇宙平臺(tái)公司計(jì)劃明年推出Llama 4。
然而,迭代之路并非坦途。包括OpenAI和谷歌在內(nèi)的幾家領(lǐng)軍企業(yè),正面臨新模型開(kāi)發(fā)耗資巨大但回報(bào)遞減的困境。OpenAI的GPT-5模型開(kāi)發(fā)工作進(jìn)展緩慢。據(jù)悉,僅6個(gè)月的訓(xùn)練,單計(jì)算成本就高達(dá)約5億美元,而性能僅比該公司現(xiàn)有產(chǎn)品略勝一籌。
關(guān)鍵詞:
凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"的電頭。
- OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力2024-12-26
- 把握中國(guó)市場(chǎng)開(kāi)放機(jī)遇——訪保加利亞商工會(huì)2024-12-26
- 央行:將開(kāi)展35億元央行票據(jù)互換(CBS)操作2024-12-26
- 新成果涌現(xiàn)、制造業(yè)成績(jī)亮眼 細(xì)數(shù)中國(guó)工業(yè)2024-12-26
- 12月26日人民幣對(duì)美元中間價(jià)報(bào)7.1897元 下2024-12-26
- 12月26日人民幣對(duì)美元中間價(jià)報(bào)7.1897元 下2024-12-26
- 12月26日央行開(kāi)展1063億元7天期逆回購(gòu)操作2024-12-26
- 事關(guān)你我日常生活!我國(guó)增值稅迎來(lái)立法 這2024-12-26
- 12月26日央行開(kāi)展1063億元7天期逆回購(gòu)操作2024-12-26
- 事關(guān)你我日常生活!我國(guó)增值稅迎來(lái)立法 這2024-12-26
- 事關(guān)你我日常生活!我國(guó)增值稅迎來(lái)立法 這2024-12-26
- 事關(guān)你我日常生活!我國(guó)增值稅迎來(lái)立法 這2024-12-26
- 海南省首個(gè)海上風(fēng)電項(xiàng)目具備并網(wǎng)發(fā)電條件2024-12-26
- 海南省首個(gè)海上風(fēng)電項(xiàng)目具備并網(wǎng)發(fā)電條件2024-12-26
- 入關(guān)日期竟早于生產(chǎn)日期,溯源碼還能信嗎?2024-12-26
- 入關(guān)日期竟早于生產(chǎn)日期,溯源碼還能信嗎?2024-12-26
- A股上市公司分紅總額創(chuàng)歷史新高 投資者將2024-12-26
- A股上市公司分紅總額創(chuàng)歷史新高 投資者將2024-12-26
- 我國(guó)新能源汽車(chē)高寒適應(yīng)性如何?來(lái)看最新測(cè)2024-12-26
- 安徽馬鞍山造的“工業(yè)大米”何以賣(mài)向全球?2024-12-26
- 山西21部門(mén)聯(lián)合出臺(tái)指導(dǎo)意見(jiàn) 打造“古韻新2024-12-26
- 安徽馬鞍山造的“工業(yè)大米”何以賣(mài)向全球?2024-12-26
- 天津東郊“光伏+污水廠”并網(wǎng)發(fā)電 四廠綠2024-12-26
- 天津東郊“光伏+污水廠”并網(wǎng)發(fā)電 四廠綠2024-12-26
- 山西21部門(mén)聯(lián)合出臺(tái)指導(dǎo)意見(jiàn) 打造“古韻新2024-12-26
- 11月廣東民用無(wú)人機(jī)產(chǎn)量同比增長(zhǎng)近1.4倍2024-12-26
- 11月廣東民用無(wú)人機(jī)產(chǎn)量同比增長(zhǎng)近1.4倍2024-12-26
- 電商西進(jìn)背后:拼多多與那些被忽略的愛(ài)與自2024-12-26
- 電商西進(jìn)背后:拼多多與那些被忽略的愛(ài)與自2024-12-26
- 發(fā)酵豆制品包括哪些?腐竹屬于發(fā)酵豆制品嗎2024-12-26
- 事關(guān)你我日常生活!我國(guó)增值稅迎來(lái)立法 這些內(nèi)容值得關(guān)注
- 事關(guān)房地產(chǎn)!住房城鄉(xiāng)建設(shè)部明年重點(diǎn)工作速覽
- “水利一號(hào)”衛(wèi)星成功發(fā)射 預(yù)計(jì)明年汛前投入使用
- 重慶職業(yè)經(jīng)理人:助力人才初創(chuàng)企業(yè)的重要力量
- 一天連吃三頓,男子急性腎損傷!很多人吃飯離不開(kāi)它……
- 32的因數(shù)有哪些?找因數(shù)的順口溜是什么?
- 長(zhǎng)沙經(jīng)開(kāi)區(qū):優(yōu)化產(chǎn)業(yè)生態(tài),助力企業(yè)高質(zhì)量成長(zhǎng)
- 南陽(yáng)宛城區(qū)法院溧河法庭:參與基層社會(huì)治理 源頭解紛彰顯擔(dān)當(dāng)
- 中國(guó)黑龍江虎林國(guó)際冰釣邀請(qǐng)賽“破冰”
- 福建泉州打造營(yíng)商服務(wù)品牌促進(jìn)民營(yíng)經(jīng)濟(jì)高質(zhì)量發(fā)展
資訊
- 12月26日人民幣對(duì)美元中間價(jià)報(bào)7.1897元 下調(diào)29個(gè)基點(diǎn)
- 車(chē)主保費(fèi)高、險(xiǎn)企承保虧——新能源車(chē)險(xiǎn)兩難局面如何破解?
- 感動(dòng)!三兄妹苦尋24年資助人報(bào)恩
- 中庸的作者是誰(shuí)啊?中庸的主要思想內(nèi)容是什么?
- 共筑金融云上新核心 華為主機(jī)上云方案亮相2024金融主機(jī)上云工作會(huì)議
- 中國(guó)證監(jiān)會(huì)將香港互認(rèn)基金客地銷(xiāo)售比例限制放寬至80%
- ?駐馬店市第三綜合抽查組檢查指導(dǎo)西平縣今冬明春重大事故災(zāi)害隱患大排查大整治工作開(kāi)展情況
- 蘇州相城區(qū)永昌路照明升級(jí),照亮民生“最后一公里”
- 徐州泉山桃園街道:傾聽(tīng)群眾呼聲 打造“抒心桃園”特色品牌
- 徐州云龍區(qū)黃山街道:書(shū)記項(xiàng)目強(qiáng)動(dòng)能 跑出發(fā)展加速度
焦點(diǎn)
- 發(fā)酵豆制品包括哪些?腐竹屬于發(fā)酵豆制品嗎?
- ?西平縣柏城楊莊小學(xué)黨支部開(kāi)展12月份主題黨日活動(dòng)
- 金觀平:貨幣政策調(diào)整有力支撐穩(wěn)增長(zhǎng)
- 2024年12月中旬流通領(lǐng)域重要生產(chǎn)資料市場(chǎng)價(jià)格:20種產(chǎn)品價(jià)格上漲 28種下降
- 天津市財(cái)政局加強(qiáng)資金支持 推動(dòng)會(huì)展業(yè)加快發(fā)展
- 原油投資的本質(zhì)是什么?原油期貨一手多少錢(qián)?
- ATP新生力量總決賽:商竣程因傷退賽
- 南陽(yáng)市宛城區(qū):光電新材料產(chǎn)業(yè)發(fā)展勢(shì)頭強(qiáng)勁
- 2025元旦、春節(jié)優(yōu)秀電視節(jié)目片單發(fā)布
- 強(qiáng)強(qiáng)聯(lián)合:天目湖儲(chǔ)能研究院與國(guó)創(chuàng)中心共建新型儲(chǔ)能平臺(tái)