DeepSeek R1豪賭“強化學(xué)習(xí)”：以3%的成本超越OpenAI

責(zé)任編輯 2025-01-26 行業(yè)科技 5 0

專題：DeepSeek為何能震動全球AI圈

　　中國AI初創(chuàng)公司深度求索（DeepSeek）推理大模型R1的發(fā)布在AI社區(qū)引發(fā)了沖擊波，顛覆了人們對實現(xiàn)尖端AI性能所需條件的假設(shè)。與OpenAI的o1相比，其成本僅為3%-5%。這種開源模式不僅吸引了開發(fā)人員，還挑戰(zhàn)了企業(yè)重新思考其AI戰(zhàn)略。

　　這對企業(yè)AI戰(zhàn)略的影響是深遠(yuǎn)的。隨著成本的降低和開放獲取，企業(yè)現(xiàn)在有了像OpenAI這樣昂貴的專有模型的替代品。DeepSeek的發(fā)布可以使尖端AI功能的獲取民主化，使小型組織能夠在AI軍備競賽中有效競爭。

　　在一組第三方基準(zhǔn)測試中，涵蓋從復(fù)雜問題解決，到數(shù)學(xué)和編碼的準(zhǔn)確性方面，DeepSeek模型的表現(xiàn)優(yōu)于Meta Llama 3.1、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。

　　微軟CEO薩蒂亞·納德拉（Satya Nadella）周三在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上表示：“看到DeepSeek的新模型，無論是他們?nèi)绾握嬲行У赝瓿闪艘粋€開源模型來進(jìn)行推理時間計算，還是計算效率方面，都令人印象深刻。我們應(yīng)該非常認(rèn)真地對待這一發(fā)展?！?/p>

　　目前，該模型已飆升至HuggingFace上下載量最高的熱門模型。同時，在蘋果商店美區(qū)免費榜排名第四，超越Google Gemini和Microsoft Copilot等美國生成式AI產(chǎn)品。

　　轉(zhuǎn)向純強化學(xué)習(xí)

　　DeepSeek-R1偏離了廣泛用于訓(xùn)練大型語言模型（LLM）的傳統(tǒng)監(jiān)督微調(diào)（SFT）過程。SFT是AI開發(fā)的標(biāo)準(zhǔn)步驟，涉及在精心策劃的數(shù)據(jù)集上訓(xùn)練模型，教會它們逐步推理，通常被稱為思維鏈（CoT）。這被認(rèn)為對提高推理能力至關(guān)重要。但DeepSeek通過完全跳過SFT來挑戰(zhàn)這一假設(shè)，轉(zhuǎn)而選擇依賴強化學(xué)習(xí)（RL）來訓(xùn)練模型。

　　這一大膽舉措迫使DeepSeek-R1開發(fā)獨立的推理能力，避免了規(guī)范性數(shù)據(jù)集經(jīng)常引入的脆弱性。雖然出現(xiàn)了一些缺陷，并導(dǎo)致團(tuán)隊在構(gòu)建模型的最后階段重新引入了有限數(shù)量的SFT，但結(jié)果證實了根本性的突破：僅強化學(xué)習(xí)就可以帶來顯著的性能提升。

　　微軟AI前沿研究實驗室的首席研究員Dimitris Papailiopoulos稱，R1最讓人驚訝的是它的工程簡單性。他說：“DeepSeek旨在獲得準(zhǔn)確的答案，而不是詳細(xì)說明每個邏輯步驟，從而在保持高水平效率的同時顯著減少計算時間。”

　　埃默里大學(xué)（Emory University）信息系統(tǒng)助理教授Hancheng Cao表示：“這可能是一個真正的均衡突破，對資源有限的研究人員和開發(fā)人員來說是件好事，尤其是來自南半球的研究人員?！?/p>

　　得益于開源

　　DeepSeek在很大程度上使用了開源。DeepSeek最初為其專有聊天機器人開發(fā)AI模型，然后將其發(fā)布供公眾使用。人們對該公司的確切方法知之甚少，但它很快將其模型開源。

　　為了訓(xùn)練其模型，DeepSeek購買了10000多塊英偉達(dá)GPU，隨后又?jǐn)U大到50000塊。與OpenAI、谷歌和Anthropic等領(lǐng)先的AI實驗室相比，這明顯相形見絀，因為這些實驗室每個都有超過50萬塊GPU。

　　社交平臺X的用戶Silver Spook稱：“感謝中國公司Deepseek，他們開發(fā)的DeepSeek-R1證明，生成式AI是一個被資本家夸大的巨大騙局，其實際價值不到550萬美元。”（注：英偉達(dá)工程師Jim Fan稱，DeepSeek在兩個月內(nèi)以558萬美元的預(yù)算訓(xùn)練了其基礎(chǔ)模型V3。）

　　DeepSeek以有限的資源實現(xiàn)有競爭力的結(jié)果的能力，突顯了獨創(chuàng)性和足智多謀。此外，DeepSeek從一開始就非常具有創(chuàng)新性。引入了專家混合系統(tǒng)（MoE）和多頭潛在注意力（MhLA）。

　　DeepSeek-R1之所以帶來如此多的驚喜，是因為開源模型背后有著巨大的邏輯和動力。它們的免費成本和延展性是此類模型將在企業(yè)中獲勝的原因。

　　對于企業(yè)決策者來說，DeepSeek的成功突顯了AI領(lǐng)域更廣泛的轉(zhuǎn)變：更精簡、更高效的開發(fā)實踐越來越可行。一些組織可能需要重新評估與專有AI提供商的合作關(guān)系。

　　Meta首席AI科學(xué)家Yann LeCun稱，DeepSeek的成功突顯了保持AI模型開源的價值，這樣任何人都可以從中受益。這表明開源模式正在超越專有模式。LeCun說：“他們提出了新的想法，并將其建立在其他人的工作之上。因為他們的工作是公開和開源的，每個人都可以從中獲利。這就是開放研究和開源的力量。”

　　社交平臺X的用戶Niels Rogge稱：“有一家名為DeepSeek的中國公司，它基本上做了OpenAI最初打算做的事情。他們開源了一個經(jīng)過大規(guī)模強化學(xué)習(xí)訓(xùn)練的模型，擊敗了其他所有人，甚至還發(fā)表了一篇詳細(xì)介紹其過程的論文?！?/p>

　　消費者受益

　　雖然DeepSeek的創(chuàng)新是突破性的，但它絕不是建立了絕對的市場領(lǐng)先地位。因為它發(fā)表了研究成果，其他模型公司將從中學(xué)習(xí)并適應(yīng)。Meta和法國開源示范公司Mistral可能會落后，但他們可能只需要幾個月的時間就能趕上。

　　最終，消費者、初創(chuàng)公司和其他用戶將贏得最大的勝利，因為DeepSeek的產(chǎn)品將繼續(xù)將使用這些模型的價格推到接近零的水平。這種快速的商品化可能會給在專有基礎(chǔ)設(shè)施上投入巨資的領(lǐng)先AI提供商帶來挑戰(zhàn)，甚至是巨大的痛苦。

　　社交平臺X的用戶Shubham Saboo稱：“DeepSeek R1 100%開源，比OpenAI o1便宜96.4%，同時提供類似的性能。OpenAI o1每1M輸出Token為60美元，而DeepSeek R1每1M輸出Token為2.19 美元。擁有200美元ChatGPT訂閱的人，請仔細(xì)考慮一下?！?/p>

　　正如許多評論家所說，包括Meta的投資者兼前高管Chamath Palihapitiya，這可能意味著OpenAI和其他公司多年的運營支出和資本支出將被浪費。

　　OpenAI投資回報問題

　　這一切都引發(fā)了人們對OpenAI、微軟和其他公司所追求的投資計劃的重大質(zhì)疑。

　　OpenAI耗資5000億美元的Stargate項目反映了其建設(shè)大型數(shù)據(jù)中心以支持其先進(jìn)模型的承諾。在甲骨文和軟銀等合作伙伴的支持下，這一戰(zhàn)略的前提是，實現(xiàn)通用人工智能（AGI）需要前所未有的計算資源。

　　然而，DeepSeek以極低的成本展示了一種高性能模型，這對這種方法的可持續(xù)性提出了挑戰(zhàn)，引發(fā)了人們對OpenAI為如此巨大的投資帶來回報的能力的懷疑。

　　企業(yè)家兼評論員Arnaud Bertrand捕捉到了這種動態(tài)，將DeepSeek節(jié)儉、分散的創(chuàng)新，與OpenAI等其他開發(fā)商對集中、資源密集型基礎(chǔ)設(shè)施的依賴，進(jìn)行了對比。

　　Bertrand稱，世界意識到以DeepSeek為代表的開發(fā)商在技術(shù)和創(chuàng)新方面已經(jīng)趕上了OpenAI等傳統(tǒng)開發(fā)商，在某些領(lǐng)域甚至超過了他們。

　　位于多倫多的技術(shù)顧問Reuven Cohen自12月下旬以來一直在使用DeepSeek-V3。他說，它可以與OpenAI、谷歌和舊金山初創(chuàng)公司Anthropic的最新系統(tǒng)相媲美，而且使用起來要便宜得多。

　　Cohen說：“DeepSeek是我省錢的一種方式。這是像我這樣的人想要使用的技術(shù)。”

轉(zhuǎn)載原創(chuàng)文章請注明，轉(zhuǎn)載自資陽天行健機車配件有限公司，原文地址：http://dreamscapesoftheperverse.com/post/37776.html

上一篇：中韓人壽獲批更名為東方嘉富人壽此前已轉(zhuǎn)為國資控股險企

下一篇：機構(gòu)：2024第三季度全球NAND閃存產(chǎn)業(yè)營收增長4.8%

亚洲av高清在线观看一区二区_天天添夭天啪天天谢_黄色三级毛片在线_国产AV无码片毛片一级久

DeepSeek R1豪賭“強化學(xué)習(xí)”：以3%的成本超越OpenAI

相關(guān)推薦

評論