AI年末“狂歡”!OpenAI、谷歌、Meta、李飛飛發(fā)布重磅產(chǎn)品
OpenAI為期12天的年終“技術盛宴”已結束第二天的直播。從當?shù)貢r間12月5日發(fā)布的“滿血版”o1模型和最貴ChatGPT Pro服務,到6日發(fā)布的強化微調(diào)(Reinforcement Fine-Tuning),無不證明AI世界又將迎來一次全新的產(chǎn)品升級和迭代。
在AI的狂歡中,其他科技公司也不甘示弱。有著“AI教母”之稱的李飛飛創(chuàng)立的World Labs以及谷歌DeepMind團隊本周先后發(fā)布重磅產(chǎn)品,讓用戶可以通過單張圖片生成交互式3D場景,展示了AI在虛擬世界構建領域的巨大潛力。
Meta和馬斯克的xAI也來湊了個熱鬧。Meta推出了今年的壓軸AI大模型:Llama 3.3 70B,該模型據(jù)稱能實現(xiàn)和Meta最大Llama 模型——Llama 3.1 405B同樣的性能,成本還更低。xAI宣布Grok從今天起全球免費,但有使用限制。免費用戶每2小時可以詢問最多10個問題,每天最多可分析3張圖片和生成4張圖片。
隨著各路玩家在AI領域競賽的深入,AI的競爭焦點也轉向了智能體和通用人工智能(AGI)。
據(jù)外媒6日的最新報道,OpenAI正在與微軟磋商放棄AGI條款,以釋放投資潛力。目前,最終決定尚未做出,OpenAI董事會將決定何時實現(xiàn)AGI。
清華大學電子工程系長聘教授、清華大學精準醫(yī)學研究院臨床大數(shù)據(jù)中心共同主任吳及告訴《每日經(jīng)濟新聞》記者,“基于多個大模型的AI智能體或多個智能體的協(xié)同,可能是未來AI技術發(fā)揮更大作用的一個重要趨勢。”
當?shù)貢r間12月5日,OpenAI為期12天的圣誕季特別活動開啟。
在第一天的活動上,OpenAI發(fā)布了推理大模型o1的“滿血版”和進階模式,以及每月收費高達200美元(約合人民幣1450元)的ChatGPT Pro訂閱服務。
“滿血版”o1的特征是,在回答用戶提問時不是“脫口而出”,而是形成一個類似人類思維方式的內(nèi)部思維鏈條。該模型已面向ChatGPT Plus和團隊用戶開放,企業(yè)和教育用戶則需要等到下周。
“滿血版”o1比9月發(fā)布的預覽版更快、更強大、更準確,同時增加了多模態(tài)輸入(可以上傳圖片)的能力。OpenAI表示,現(xiàn)在的o1模型“思維已經(jīng)被訓練得更加簡潔”(大概快50%),而且在回答困難現(xiàn)實問題時,出現(xiàn)重大錯誤的概率減少了34%。
同時發(fā)布的ChatGPT Pro服務也引發(fā)了外界的廣泛關注,每月200美元的訂閱費是目前ChatGPT Plus定價的10倍。不過,用戶可以無限量地使用o1模型(Plus用戶當前有每周50條信息的限制),以及無限量使用o1 mini和高級語音模式,同時也能用上o1 pro模式,該模式“使用更多的計算來為最難的問題提供最佳答案”。
次日,OpenAI打出活動“第二彈”,推出了強化微調(diào)(Reinforcement Fine-Tuning)。阿爾特曼表示:“強化微調(diào),效果出奇地好;它是我2024年最大的驚喜之一?!?/p>
強化微調(diào)與標準微調(diào)不同,利用強化學習算法,研究者可以強化產(chǎn)生正確答案的思路,抑制產(chǎn)生錯誤答案的思路,只需要“幾十個例子”(a few dozen examples)、甚至12個例子,模型就能以有效的新方式學習特定領域的推理,提升模型在特定領域任務中的推理能力和準確性。
據(jù)介紹,它甚至可以讓簡易版推理模型o1 mini的效果超過前一天剛發(fā)布的“滿血版”o1。OpenAI預計將于2025年初公開發(fā)布強化微調(diào)功能。
除了OpenAI的首批年末“王炸”外,本周還有諸多AI相關的重磅產(chǎn)品出爐。
作為AI領域影響力最大的女性和華人之一,斯坦福大學教授李飛飛于當?shù)貢r間12月2日公布了其首個創(chuàng)業(yè)項目World Labs的成果——能用單張靜態(tài)圖片生成3D世界的AI產(chǎn)品。
在World Labs網(wǎng)站的演示里,由AI生成的場景均通過瀏覽器實時渲染而成,用戶可以使用箭頭鍵或鍵盤(WASD)鍵移動,然后單擊并拖動鼠標實現(xiàn)交互,從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調(diào)節(jié)模擬景深(DoF)與模擬推拉變焦(dolly zoom),當使用者將景深效果調(diào)至越強時,背景中的物體便會越發(fā)模糊,為整個視覺體驗增添了更多層次感與真實感。
但World Labs目前只向公眾發(fā)布了關于該技術的博客,外界能夠體驗的功能極為有限,而且并未放出任何代碼和模型。
在單圖生成3D世界領域探索的還有谷歌。北京時間12月5日凌晨,谷歌DeepMind在官網(wǎng)發(fā)布了大型基礎世界模型Genie 2,可通過單張圖片和文字描述生成種類多樣的游戲3D世界,標志著AI在虛擬世界生成領域的又一次突破。
簡單來說,給Genie 2一張圖片,它可以生成供人類游玩、可實時渲染、可控和可交互的無限3D世界,不需要借助任何游戲引擎。例如,輸入“森林中的可愛人形機器人”,模型便可構建一個包含機器人角色和可探索環(huán)境的動態(tài)場景。用戶可以通過鍵盤或鼠標操作角色在世界中進行跳躍、游泳等互動。
和Genie 1相比,Genie 2擁有長期記憶,即使是角色短暫離開畫面,在重新進入視野后,依舊能被精準還原出來。
清華大學電子工程系長聘教授、清華大學精準醫(yī)學研究院臨床大數(shù)據(jù)中心共同主任吳及在接受《每日經(jīng)濟新聞》記者采訪時表示,“從學術研究的角度來看,能否將文本意義上的世界模型與物理意義上的世界模型關聯(lián)起來,把真正的物理世界進行建模,是AI技術能否取得突破的關鍵?!?/p>
World Labs和谷歌之后,Meta也來湊了個熱鬧,于當?shù)貢r間12月6日推出了今年的壓軸AI大模型:Llama 3.3 70B。Meta 生成式AI副總裁 Ahmad Al-Dahle在X發(fā)帖表示,純文本的 Llama 3.3能實現(xiàn)和Meta最大Llama模型——Llama 3.1 405B同樣的性能,成本還更低。
Al-Dahle還附上了一張圖表,顯示包括針對大模型語言理解能力的測試MMLU在內(nèi),Llama 3.3在一系列行業(yè)基準測試中表現(xiàn)優(yōu)于谷歌的Gemini 1.5 Pro、OpenAI 的 GPT-4o和亞馬遜本周稍早發(fā)布的Nova Pro。
隨著大模型競賽的深入,AI的風又更多地吹向了智能體和通用人工智能(AGI)。
吳及告訴每經(jīng)記者,目前,盡管單個大模型在某些方面表現(xiàn)出色,但也存在諸多不足,例如幻覺和遺忘效應等問題。他強調(diào),“基于多個大模型的AI智能體或多個智能體的協(xié)同,可能是未來AI技術發(fā)揮更大作用的一個重要趨勢?!?/p>
吳及認為,智能體融合將成為AI應用解決特定場景問題的一個重要技術前景或發(fā)展方向。
在《紐約時報》于當?shù)貢r間12月4日舉辦的DealBook峰會上,阿爾特曼表示,“智能體是現(xiàn)在每個人都在談論的話題,我認為這背后是有充分理由的。設想一下,你可以讓AI系統(tǒng)完成一項相當復雜的任務,比如需要一位非常聰明的人,花費一段時間,借助各種工具來完成并產(chǎn)出有價值成果的任務。我預計,這樣的場景將在明年成為現(xiàn)實。”
他同時指出,AI行業(yè)即將迎來的發(fā)展將比預期更具沖擊力。他將AI的影響力比作晶體管的發(fā)明,認為AI的推理功能未來將走向普及化和商業(yè)化?!暗?025年,我們可能會首次見到具備AGI能力的系統(tǒng)。這類系統(tǒng)可以像人類一樣完成復雜任務,甚至能運用多種工具來解決問題,”他說。
據(jù)外媒12月6日最新報道,OpenAI正在與微軟磋商放棄AGI條款,以釋放投資潛力。根據(jù)目前的條款,當OpenAI創(chuàng)建AGI時,微軟對這種技術的使用權將失效。目前,最終決定尚未做出,OpenAI董事會將決定何時實現(xiàn)AGI。
轉載原創(chuàng)文章請注明,轉載自資陽天行健機車配件有限公司,原文地址:http://dreamscapesoftheperverse.com/post/5117.html