DeepSeek火出圈，英偉達(dá)完了嗎？

責(zé)任編輯 2024-12-29 行業(yè)科技 13 0

　　DeepSeek v3因?yàn)槭呛蟀l(fā)，完全可以避開前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。真實(shí)邏輯應(yīng)該是：榨干同等算力去攫取10倍收益。就比如o1的訓(xùn)練成本遠(yuǎn)超GPT-4，而o3的訓(xùn)練成本大概率遠(yuǎn)超o1。從前沿探索角度看，訓(xùn)練所需算力只會越來越多。應(yīng)用生態(tài)越繁榮，只會讓訓(xùn)練投入的支付能力更強(qiáng)；而算力通縮，只會讓同等投入買到更多訓(xùn)練Flops。

　　首先訓(xùn)練同一代模型所需算力每隔N個(gè)月就是指數(shù)級降低，這里面有算法進(jìn)步、算力本身通縮、數(shù)據(jù)蒸餾等等因素，這也是為什么說“模型后發(fā)更省力”。援引下星球內(nèi)一則評論：“就好像看過幾遍答案，水平很一般的學(xué)生也能在1小時(shí)內(nèi)把高考數(shù)學(xué)卷整出滿分”。?DeepSeek v3因?yàn)槭呛蟀l(fā)，完全可以避開前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。因此幻方在GPT4o發(fā)布7個(gè)月后，用1/10算力實(shí)現(xiàn)幾乎同等水平，是合理的，甚至可以作為未來對同代模型訓(xùn)練成本下降速度的預(yù)測。但這里面依然有幾個(gè)概念上的誤解。

　　首先是“訓(xùn)練”范圍上的混淆?；梅降恼撐拿鞔_說明了：“上述成本僅包括DeepSeek-V3 的正式訓(xùn)練，不包括與架構(gòu)、算法、數(shù)據(jù)相關(guān)的前期研究、消融實(shí)驗(yàn)的成本?！?也就是星球內(nèi)一位算法工程師說的“有點(diǎn)斷章取義，幻方在訓(xùn)這個(gè)模型之前，用了他們自己的r1模型（對標(biāo)openai o1）來生成數(shù)據(jù)，這個(gè)部分的反復(fù)嘗試要不要算在成本里呢？單就在訓(xùn)練上做降本增效這件事，這不代表需求會下降，只代表大廠可以用性價(jià)比更高的方式去做模型極限能力的探索。應(yīng)用端只要有增長的邏輯，推理的需求依然是值得期待的?！?/p>

　　隨著Ilya說的“公開互聯(lián)網(wǎng)數(shù)據(jù)窮盡”，未來合成數(shù)據(jù)是突破數(shù)據(jù)天花板的重要來源，且天花板理論上足夠高。相當(dāng)于過去的預(yù)訓(xùn)練范式從卷參數(shù)、卷數(shù)據(jù)總量，到了卷數(shù)據(jù)質(zhì)量，卷新的Scaling因子（RL、測試時(shí)間計(jì)算等），而算力只不過換了個(gè)地方，繼續(xù)被其他訓(xùn)練環(huán)節(jié)榨干。

　　從目前各大實(shí)驗(yàn)室的實(shí)際情況看也是，OpenAI、Anthropic至今仍處于缺卡狀態(tài)，相信幻方也是?？从?xùn)練算力是否下降，不應(yīng)該只看某代模型某次訓(xùn)練這種切面，而應(yīng)該從“總量”以及“自上而下”去看，這些實(shí)驗(yàn)室的訓(xùn)練算力總需求是下降了嗎？反而一直在上升。預(yù)訓(xùn)練的經(jīng)濟(jì)效益下降，那就把卡挪給RL post train，發(fā)現(xiàn)模型實(shí)現(xiàn)同等提升所需卡減少了，那就減少投入了嗎？不會，真實(shí)邏輯應(yīng)該是：榨干同等算力去攫取10倍收益。就比如o1的訓(xùn)練成本遠(yuǎn)超GPT-4，而o3的訓(xùn)練成本大概率遠(yuǎn)超o1。從前沿探索角度看，訓(xùn)練所需算力只會越來越多。應(yīng)用生態(tài)越繁榮，只會讓訓(xùn)練投入的支付能力更強(qiáng)；而算力通縮，只會讓同等投入買到更多訓(xùn)練Flops。

　　就好比幻方這次發(fā)布的模型，依然是LLM路線下，將MoE壓榨到了極致。但相信幻方自己的推理模型r1（對標(biāo)o1）也在探索r2/r3，這顯然需要更多算力。而r2/r3訓(xùn)完，又被用來消耗大量算力為deepseek v4合成數(shù)據(jù)。發(fā)現(xiàn)沒，pre-train scaling、RL scaling、test-time compute scaling三條線甚至還有正反饋。因此，只會在可獲得最大資源的前提下，用最高效的算法/工程手段，壓榨出最大的模型能力提升。而不會因?yàn)樾侍嵘鴾p少投入，個(gè)人認(rèn)為這是個(gè)偽邏輯。

　　對于推理，不必多說了，一定是上升。引用下星球內(nèi)洪博的評論：DeepSeek-V3的出現(xiàn)（可能還包括輕量版V3-Lite），將支持私有部署和自主微調(diào)，為下游應(yīng)用提供遠(yuǎn)大于閉源模型時(shí)代的發(fā)展空間。未來一兩年，大概率將見證更豐富的推理芯片產(chǎn)品、更繁榮的LLM應(yīng)用生態(tài)。

　　文章來源：信息平權(quán)，原文標(biāo)題：《訓(xùn)練算力真的下降了嗎？》

轉(zhuǎn)載原創(chuàng)文章請注明，轉(zhuǎn)載自資陽天行健機(jī)車配件有限公司，原文地址：http://dreamscapesoftheperverse.com/post/23600.html

上一篇：美生物技術(shù)公司估值超百億美元，目標(biāo)四年內(nèi)“復(fù)活”猛犸象

下一篇：機(jī)構(gòu)：2024第三季度全球NAND閃存產(chǎn)業(yè)營收增長4.8%

亚洲av高清在线观看一区二区_天天添夭天啪天天谢_黄色三级毛片在线_国产AV无码片毛片一级久

DeepSeek火出圈，英偉達(dá)完了嗎？

相關(guān)推薦

評論

DeepSeek火出圈，英偉達(dá)完了嗎？