亚洲av高清在线观看一区二区_天天添夭天啪天天谢_黄色三级毛片在线_国产AV无码片毛片一级久

國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開

  物聯(lián)網(wǎng)技術(shù)

  DeepSeek新版模型正式發(fā)布,技術(shù)大佬們都轉(zhuǎn)瘋了!

  延續(xù)便宜大碗特點(diǎn)的基礎(chǔ)之上,DeepSeek V3發(fā)布即完全開源,直接用了53頁論文把訓(xùn)練細(xì)節(jié)和盤托出的那種。

  怎么說呢,QLoRA一作的一個詞評價就是:優(yōu)雅。

  具體來說,DeepSeek V3是一個參數(shù)量為671B的MoE模型,激活37B,在14.8T高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。

  在多項(xiàng)測評上,DeepSeek V3達(dá)到了開源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——

  而其價格比Claude 3.5 Haiku還便宜,僅為Claude 3.5 Sonnet的9%。

  更重要的是,大家伙兒還第一時間在論文中發(fā)現(xiàn)了關(guān)鍵細(xì)節(jié):

  DeepSeek V3整個訓(xùn)練過程僅用了不到280萬個GPU小時,相比之下,Llama 3 405B的訓(xùn)練時長是3080萬GPU小時(p.s. GPU型號也不同)。

  直觀地從錢上來對比就是,訓(xùn)練671B的DeepSeek V3的成本是557.6萬美元(約合4070萬人民幣),而只是訓(xùn)練一個7B的Llama 2,就要花費(fèi)76萬美元(約合555萬人民幣)。

  OpenAI創(chuàng)始成員Karpathy對此贊道:

DeepSeek V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。

DeepSeek V3看起來比Llama 3 405B更強(qiáng),訓(xùn)練消耗的算力卻僅為后者的1/11。

  Meta科學(xué)家田淵棟也驚嘆DeepSeek V3的訓(xùn)練看上去是“黑科技”:

這是非常偉大的工作。

  全網(wǎng)熱烈實(shí)測中

  先來看官方說法,新模型這次主要有以下幾個特點(diǎn):

  首先從模型能力來看,其評測跑分不僅超越了Qwen2.5-72B和Llama-3.1-405B等開源模型,甚至還和一些頂尖閉源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。

  從實(shí)際響應(yīng)來看,其生成速度提升了3倍,每秒生成60個tokens。

  在又快又好的同時,DeepSeek V3的API價格也被打下來了。

每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元

  單論價格,正如一開始提到的,它幾乎是Claude 3.5 Sonnet的1/53(后者每百萬輸入3美元、輸出15美元)。

  而如果要平衡性能和成本,它成了DeepSeek官方繪圖中唯一闖進(jìn)“最佳性價比”三角區(qū)的模型。

  對了,DeepSeek這次還搞了一個45天優(yōu)惠價格體驗(yàn)期,也就是在2025年2月8日之前,所有用戶使用DeepSeek V3 API的價格分別下降了80%(輸入命中)、50%(輸入未命中),75%(輸出)。

每百萬輸入tokens 0.1元(緩存命中)/ 1元(緩存未命中),每百萬輸出tokens 2元

  最后,官方此次一同開源了原生FP8權(quán)重,并提供了從FP8到BF16的轉(zhuǎn)換腳本。

  具體而言,SGLang和LMDeploy這兩個框架已支持FP8推理,另外兩個框架TensorRT-LLM和MindIE則支持BF16推理(適合需要更高精度的場景)。

  目前普通用戶可以通過官網(wǎng)(chat.deepseek.com)與DeepSeek V3展開對話,API也已同步更新,接口配置無需改動。

  知名AI博主AK親測,只需幾行代碼就能將它部署到Gradio。

  Okk,話說到這里,我們直接來看一些實(shí)測效果吧。

  首位全職提示詞工程師出新題,DeepSeek V3完全答對

  這第一關(guān),來自首位全職提示詞工程師Riley Goodside。

  新題為“Which version is this?”,考察模型對自身版本的理解。接受考驗(yàn)的選手除了DeepSeek V3,還有Claude、Gemini、ChatGPT和Grok。

  先說結(jié)論,按Riley的說法,這幾位的回答主打“各不相同”,不過DeepSeek V3完全答對了。

  Claude 3.5 Sonnet也對其版本了如指掌——不僅說對了版本號(許多用戶非官方地稱這個版本為3.5.1或3.6),還給出了發(fā)布月份。

 ?。ú贿^Claude 3.5 Haiku出錯了,誤識別為Claude 3 Haiku。)

  不過后面幾位選手就開始各種出錯了,尤其是ChatGPT和Grok。

  ChatGPT要么給出模糊答案(基于GPT-4架構(gòu)),要么直接自信給出錯誤版本,總之處于比較懵圈的狀態(tài)。

  而Grok更是獨(dú)特,理論倒是一套一套,但就是不說自己的版本。(除非直接問它是哪個Grok模型)

  除此之外,一些網(wǎng)友還進(jìn)行了更多測試。

  更多網(wǎng)友整活

  比如這位Tom小哥驚訝表示,DeepSeek V3無需開發(fā)者詳細(xì)解釋,就能“詭異”理解整個項(xiàng)目。

突然感覺機(jī)器里好像有鬼

  他唯一做的,就是告訴DeepSeek V3最終目標(biāo)是什么。

  當(dāng)然,老規(guī)矩還是要測一下數(shù)草莓中的“r”以及“9.9和9.11哪個大”這種行業(yè)難題。(doge)

  很欣慰,這次它都答對了,而且答案和分析過程都沒問題。

  最后,還有人直接將4個M4 Mac mini堆疊在一起來運(yùn)行DeepSeek V3了……

  唯一值得遺憾的是,當(dāng)前版本的DeepSeek V3暫不支持多模態(tài)輸入輸出。

  模型預(yù)訓(xùn)練:<2個月,600萬美元

  測試完畢,我們繼續(xù)掰開論文細(xì)節(jié)。先來看最受關(guān)注的預(yù)訓(xùn)練部分:

  官方介紹,通過在算法、框架和硬件方面的協(xié)同優(yōu)化,DeepSeek V3的訓(xùn)練成本變得非常經(jīng)濟(jì)。

  預(yù)訓(xùn)練階段,在每萬億token上訓(xùn)練DeepSeek V3僅需要18萬GPU小時,就是說,在官方2048卡集群上,3.7天就能完成這一訓(xùn)練過程。

  研發(fā)團(tuán)隊(duì)用了不到2個月的時間就完成了DeepSeek V3的預(yù)訓(xùn)練,耗費(fèi)了266.4萬GPU小時,再加上上下文長度擴(kuò)展的11.9萬GPU小時,和后訓(xùn)練的5000 GPU小時,總訓(xùn)練成本為278.8萬GPU小時。

  假設(shè)GPU租賃價格為每GPU小時2美元,那成本換算過來就是557.6萬美元。

  所以,具體是什么樣的協(xié)同優(yōu)化?

  官方標(biāo)注了幾個重點(diǎn):

  首先,架構(gòu)方面,DeepSeek V3采用了創(chuàng)新的負(fù)載均衡策略和訓(xùn)練目標(biāo)。

  研發(fā)團(tuán)隊(duì)在DeepSeek-V2架構(gòu)的基礎(chǔ)上,提出了一種無輔助損失的負(fù)載均衡策略,能最大限度減少負(fù)載均衡而導(dǎo)致的性能下降。

  具體而言,該策略為MoE中的每個專家引入了一個偏置項(xiàng)(bias term),并將其添加到相應(yīng)的親和度分?jǐn)?shù)中,以確定top-K路由。

  研發(fā)團(tuán)隊(duì)還證明,多Token預(yù)測目標(biāo)(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推測解碼。

  預(yù)訓(xùn)練方面,DeepSeek V3采用FP8訓(xùn)練。研發(fā)團(tuán)隊(duì)設(shè)計了一個FP8混合精度訓(xùn)練框架,首次驗(yàn)證了FP8訓(xùn)練在極大規(guī)模模型上的可行性和有效性。

  論文中還提到了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸問題。解決策略包括,設(shè)計DualPipe高效流水線并行算法:在單個前向和后向塊對內(nèi),重疊計算和通信。

  這種重疊能確保隨著模型的進(jìn)一步擴(kuò)大,只要保持恒定的計算和通信比率,就仍然可以跨節(jié)點(diǎn)使用細(xì)粒度專家,實(shí)現(xiàn)接近于0的all-to-all通信開銷。

  另外,研發(fā)團(tuán)隊(duì)還開發(fā)了高效的跨節(jié)點(diǎn)all-to-all通信內(nèi)核等。

  后訓(xùn)練方面,DeepSeek V3引入了一種創(chuàng)新方法,將推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時,保持了DeepSeek V3的輸出風(fēng)格和長度控制。

  其他值得關(guān)注的細(xì)節(jié)還包括,DeepSeek V3的MoE由256個路由專家和1個共享專家組成。在256個路由專家中,每個token會激活8個專家,并確保每個token最多被發(fā)送到4個節(jié)點(diǎn)。

  DeepSeek V3還引入了冗余專家(redundant experts)的部署策略,即復(fù)制高負(fù)載專家并冗余部署。這主要是為了在推理階段,實(shí)現(xiàn)MoE不同專家之間的負(fù)載均衡。

  最后,來看部分實(shí)驗(yàn)結(jié)果。

  大海撈針實(shí)驗(yàn):

  可以看到,在各項(xiàng)基準(zhǔn)測試中,DeepSeek V3在開源模型中達(dá)到SOTA。

  賈揚(yáng)清談DeepSeek團(tuán)隊(duì):其成就根植于多年專業(yè)知識

  新版本模型引爆熱議,更多有關(guān)DeepSeek及其背后團(tuán)隊(duì)的信息也被關(guān)注到。

  其中,賈揚(yáng)清還透露了與DeepSeek團(tuán)隊(duì)早年的相處細(xì)節(jié)。

  當(dāng)時是2019年,他正打算向團(tuán)隊(duì)推薦一個AI云解決方案,并試圖說服這群人:

不需要復(fù)雜的云虛擬化,只需要容器和高效的調(diào)度器。需要真正快速、相互連接的專用網(wǎng)絡(luò),如RoCE或Infiniband。需要像NFS這樣的通用存儲,不需要太復(fù)雜,但必須快速。要讓AI開發(fā)者滿意,而不是系統(tǒng)可靠性工程師(SREs)滿意。

  有意思的是,團(tuán)隊(duì)表示這些東西他們早已實(shí)踐了多年,并轉(zhuǎn)而讓他幫忙向一些大學(xué)實(shí)驗(yàn)室捐贈算力資源。

  當(dāng)然最后也確實(shí)幫上忙了,而賈揚(yáng)清也再次感嘆:

DeepSeek團(tuán)隊(duì)的偉大成就在某種程度上植根于多年的專業(yè)知識,這些專業(yè)知識部分被許多人忽視了。

  最最后,除了本次官方公布的測試結(jié)果,Imsys匿名競技場也出來提前預(yù)熱了。

轉(zhuǎn)載原創(chuàng)文章請注明,轉(zhuǎn)載自資陽天行健機(jī)車配件有限公司,原文地址:http://dreamscapesoftheperverse.com/post/23560.html

上一篇:吳曉求:當(dāng)下穩(wěn)定是最重要的 應(yīng)該把重點(diǎn)放在法律的完善、規(guī)則的公平、制度的穩(wěn)定和市場的透明上

下一篇:機(jī)構(gòu):2024第三季度全球NAND閃存產(chǎn)業(yè)營收增長4.8%

評論

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點(diǎn)。