中國AI的進步之快,讓美國人開始懷疑現實了
文 | 闌夕
這幾天刷推很明顯的感覺到英文技術社區(qū)對中國AI產業(yè)的進步速度處于一種半震動半懵逼的狀態(tài),應激來源主要是兩個,一個是宇樹(Unitree)的輪足式機器狗B2-W,另一個是開源MoE模型DeepSeek-V3。
宇樹在早年基本上屬于是波士頓動力的跟班,產品形態(tài)完全照貓畫虎,商業(yè)上瞄準的也是低配平替生態(tài)位,沒有太大的吸引力,但從B系列型號開始,宇樹的機器狗就在靈活性上可以和波士頓動力平起平坐了。
B2-W的意外在于切換了技術線,用運動性更高但平衡性同時也更難的動輪方案取代了B2還在沿用四足方案,然后在一年時間里完成了能在戶外環(huán)境里跋山涉水的訓練,很多美國人在視頻底下說這一定是CGI的畫面,不知道是真串還是心態(tài)炸了。
波士頓在機器狗身上也曾短暫用過動輪方案,或者說它測過的方案遠比宇樹要多——公司成立時長擺在那里——但是作為行業(yè)先驅,它連保持一家美國公司的實體都辦不到了。
現代汽車2020年以打折價從軟銀手里買了波士頓動力,正值軟銀賬面巨虧需要回血,而軟銀當初又是在2017年從Google那里買到手的,Google為什么賣呢,因為覺得太燒錢了,虧不起。
這理由就很離譜,美國的風險資本系統(tǒng)對于虧損的容忍度本來就是全球最高的,沒有之一,對于前沿性的研究,砸錢畫餅是再尋常不過了的——看這兩年硅谷在AI上的投入產出比就知道了——但波士頓動力何以在獨一檔的地位上被當成不良資產賣來賣去?
那頭房間里的大象,美國的科技行業(yè)普遍都裝作看不到:美國人,如今的美國人,從投行到企業(yè),從CEO到程序員,從紐約到灣區(qū),對制造業(yè)的厭棄已經成為本能了。
A16Z的合伙人馬克·安德森2011年在‘華爾街日報’寫了那篇流傳甚廣的代表作‘軟件吞噬世界’,大概意思是,邊際成本極低的軟件公司注定接管一切水草繁盛之地,和這種可以提供指數級增長的生意比起來,其他的行業(yè)都不夠看。
并不是說馬克·安德森的表達有問題,后面這十幾年來的現實走向,也確實在證明這條攫取規(guī)?;麧櫟幕貓笫亲罡叩?,但美國人的路徑依賴到最后必然帶來一整代人喪失制造能力的結果。
這里說的喪失制造能力,并不是說喪失制造興趣或是熱情,我前段時間拜訪了深圳一家逆向海淘公司,業(yè)務就是把華強北的電子配件做成可索引的結構化目錄,然后提供從采購到驗貨再到發(fā)包的全流程服務,最大的買方就是美國的DIY市場和高校學生,他們之所以要不遠萬里的等上幾個星期委托中國人來買東西,就是因為在諾大的美國本土,根本找不到供應鏈。
然后那些學生也只有在讀書時才有真正嘗試制造某些東西的機會,到了要去大公司里上班領薪后,再也沒人愿意把手弄臟了。
但軟件終究不能脫離硬件運行,哪怕硬件生產的附加值再不夠看,基于采集一手物理數據的入口,制造商腰板硬起來后去做全套解決方案,只取決于能不能組建好的工程師團隊,反過來卻不一樣,制造訂單長期外包出去,它就變成產業(yè)鏈配套回不來了。
所以像是多旋翼無人機和四足機器狗這類新興科技萌芽的原型機一般都還是產自有著試錯資本的歐美,也就是所謂‘從零到一’的過程,而在‘從一到十’的落地階段,中國的追趕成果就會開始密集呈現,進入‘從十到百’的量產之后,中國的供應鏈成本直接殺死比賽。
波士頓動力的機器人最早在網上爆火的時候,Google X的負責人在內部備忘錄里說他已經和媒體溝通了,希望不要讓視頻和Google扯上太大關系,是不是很迷惑,這么牛逼的事情,你作為母公司非但不高興,還想躲起來,現在你們懂得這種顧慮從何而來了,就是覺得貴為軟件巨頭的Google去卷袖子干制造的活兒太卑賤了唄。
當然美國也還有馬斯克這樣的建設者(Builder),但你要知道馬斯克的故事之所以動人,是因為他這樣的人現在是極度稀缺的,而且長期以來不受主流科技業(yè)界待見,完全是靠逆常識的成就——造汽車,造火箭,造隧道,這都是硅谷唯恐避之不及的事情——去一步步打臉打出來的名聲。
如果說宇樹是在硬件上引起了一波懷疑現實的熱度,那么DeepSeek則在軟件的原生地盤,把大模型廠商都給硬控住了。
在微軟、Meta、Google都在奔著10萬卡集群去做大模型訓練時,DeepSeek在2000個GPU上,花了不到600萬美金和2個月的時間,就實現了對齊GPT-4o和Claude 3.5 Sonnet的測試結果。
DeepSeek-V2在半年前就火過一波,但那會兒的敘事還相對符合舊版本的預期:中國AI公司推出了低成本的開源模型,想要成為行業(yè)里的價格屠夫,中國人就擅長做這種便宜耐用的東西,只要不去和頂級產品比較,能用是肯定的。
但V3則完全不同了,它把成本降了10倍以上,同時質量卻能比肩t1陣營,關鍵還是開源的,相關推文的評論區(qū)全是‘中國人咋做到的?’
雖然但是,后發(fā)的大模型可以通過知識蒸餾等手段實現性價比更高的訓練——類似你學習牛頓三定律的速度降低的斜率也在有利于追趕者,肯定比牛頓本人琢磨出定律的速度要快——成本,但匪夷所思的效率提升,是很難用已知訓練方法來歸納的,它一定是是在底層架構上做了不同于其他巨頭的創(chuàng)新。
另一個角度更有意思,如果針對中國的AI芯片禁售政策最后產生的后果,是讓中國的大模型公司不得不在算力受限的約束下實現了效率更高的解決方案,這種適得其反的劇情就太諷刺了。
DeepSeek的創(chuàng)始人梁文鋒之前也說過,公司差的從來都不是錢,而是高端芯片被禁運。
所以中國的大模型公司,像是字節(jié)和阿里這樣的大廠,卡能管夠,把年收入的1/10拿出來卷AI,問題不大,但初創(chuàng)公司沒這么多彈藥,保持不下牌桌的唯一方法就是玩命創(chuàng)新。
李開復今年也一直在表達一個觀點,中國做AI的優(yōu)勢從來不是在不設預算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優(yōu)解。
零一和DeepSeek用的都是MoE(混合專家)模式,相當于是在事先準備的高質量數據集上去做特定訓練,不能說在跑分上完全沒有水分,但市場并不關心原理,只要質價比夠看,就一定會有競爭力。
當然DeepSeek不太一樣的是,它不太缺卡,2021年就囤了1萬張英偉達A100,那會兒ChatGPT還沒影呢,和Meta為了元宇宙囤卡卻陰差陽錯的趕上AI浪潮很像,DeepSeek買那么多卡,是為了做量化交易??
我最早對梁文鋒有印象,是‘西蒙斯傳’里有他寫的序,西蒙斯是文藝復興科技公司的創(chuàng)始人,用算法模型去做自動化投資的開創(chuàng)者,梁文鋒當時管著600億人民幣的量化私募,寫序屬于順理成章的給行業(yè)祖師爺致敬。
交待這個背景,是想說,梁文鋒的幾家公司,從量化交易做到大模型開發(fā),并不是一個金融轉為科技的過程,而是數學技能在兩個應用場景之間的切換,投資的目的是預測市場,大模型的原理也是預測Token。
后來看過幾次梁文鋒的采訪,對他的印象很好,非常清醒和聰明的一個人,我貼幾段你們感受一下:
‘暗涌’:大部分中國公司都選擇既要模型又要應用,為什么DeepSeek目前選擇只做研究探索?
梁文鋒:因為我們覺得現在最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年,中國公司習慣了別人做技術創(chuàng)新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。
‘暗涌’:互聯網和移動互聯網時代留給大部分人的慣性認知是,美國擅長搞技術創(chuàng)新,中國更擅長做應用。
梁文鋒:我們認為隨著經濟發(fā)展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術創(chuàng)新里。我們已經習慣摩爾定律從天而降,躺在家里18個月就會出來更好的硬件和軟件。Scaling Law也在被如此對待。但其實,這是西方主導的技術社區(qū)一代代孜孜不倦創(chuàng)造出來的,只因為之前我們沒有參與這個過程,以至于忽視了它的存在。
‘暗涌’:但這種選擇放在中國語境里,也過于奢侈。大模型是一個重投入游戲,不是所有公司都有資本只去研究創(chuàng)新,而不是先考慮商業(yè)化。
梁文鋒:創(chuàng)新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關。但現在,你看無論中國的經濟體量,還是字節(jié)、騰訊這些大廠的利潤,放在全球都不低。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實現有效的創(chuàng)新。
‘暗涌’:但做大模型,單純的技術領先也很難形成絕對優(yōu)勢,你們賭的那個更大的東西是什么?
梁文鋒:我們看到的是中國AI不可能永遠處在跟隨的位置。我們經常說中國AI和美國有一兩年差距,但真實的gap是原創(chuàng)和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。英偉達的領先,不只是一個公司的努力,而是整個西方技術社區(qū)和產業(yè)共同努力的結果。他們能看到下一代的技術趨勢,手里有路線圖。中國AI的發(fā)展,同樣需要這樣的生態(tài)。很多國產芯片發(fā)展不起來,也是因為缺乏配套的技術社區(qū),只有第二手消息,所以中國必然需要有人站到技術的前沿。
‘暗涌’:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個領域前50名的頂尖人才可能都不在中國的公司,你們的人都來自哪里?
梁文鋒:V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。
‘暗涌’:所以你對這件事也是樂觀的?
梁文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學老師,九十年代,廣東賺錢機會很多,當時有不少家長到我家里來,基本就是家長覺得讀書沒用。但現在回去看,觀念都變了。因為錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。以后硬核創(chuàng)新會越來越多。現在可能還不容易被理解,是因為整個社會群體需要被事實教育。當這個社會讓硬核創(chuàng)新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。
轉載原創(chuàng)文章請注明,轉載自資陽天行健機車配件有限公司,原文地址:http://dreamscapesoftheperverse.com/post/23614.html