歲末年初,,中國(guó)資本市場(chǎng)和AI以一種出人意料的方式被勾連起來:A股在2024年最后一個(gè)交易日和2025年前三個(gè)交易日持續(xù)下跌,同時(shí)中國(guó)一個(gè)以較低成本達(dá)到與硅谷最先進(jìn)AI幾乎同樣效果的全新大模型橫空出世,,而其脫胎于被指責(zé)對(duì)股市下跌推波助瀾的量化私募基金之一,。
2024年12月26日,中國(guó)AI初創(chuàng)企業(yè)DeepSeek(深度求索)官方微信公眾號(hào)推文稱,,旗下全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源,,其為自研MoE模型,671B參數(shù),,激活37B,,在14.8T token上進(jìn)行了預(yù)訓(xùn)練;DeepSeek-V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。
該模型一經(jīng)發(fā)布可謂震撼了整個(gè)AI圈,在硅谷掀起的討論度甚至高過國(guó)內(nèi),。谷歌前CEO埃里克·施密特(Eric Schmidt)近期在訪談中表示:“中國(guó)現(xiàn)在手握兩款看起來是史上最強(qiáng)的AI模型,,而且它們是完全開源的,一個(gè)是超級(jí)強(qiáng)大的問題求解器,,另一個(gè)是大語言模型,,在某些情況下它與Llama-3的4000億參數(shù)效果相當(dāng)甚至更勝一籌,這讓我很震驚,,之前我一直以為他們?cè)谶@方面落后了兩三年,,現(xiàn)在看來只落后了不到一年?!彼鞔_指出DeepSeek就是中國(guó)正在快速追趕美國(guó)領(lǐng)先AI模型的一個(gè)最新例證,。
可能同樣令施密特震驚的是,DeepSeek這家公司成立的時(shí)間不到兩年,,且未如月之暗面,、智譜AI,、Minimax等一眾AI初創(chuàng)公司一樣“投靠”大廠。根據(jù)企查查的數(shù)據(jù),,DeepSeek由幻方量化創(chuàng)始人梁文鋒牽頭創(chuàng)立于2023年7月,,是一家通用人工智能模型AGI研發(fā)商,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù),,以滿足人工智能領(lǐng)域的各種需求,。
眾所周知,大模型是一個(gè)極其“燒錢”的游戲,,但梁文鋒曾在接受“暗涌Waves”采訪時(shí)表示,,大模型業(yè)務(wù)短期內(nèi)沒有融資計(jì)劃,面臨的問題從來不是錢,,而是高端芯片的獲取問題,。
幻方量化為中國(guó)量化私募巨頭,旗下包含浙江九章資產(chǎn)和寧波幻方量化兩家公司,,分別成立于2015年和2016年,,公司管理規(guī)模在2021年時(shí)曾達(dá)到千億元,最新管理規(guī)模已降到200~300億元,,據(jù)業(yè)內(nèi)人士透露這也是其主動(dòng)控制規(guī)模的一個(gè)結(jié)果,。至于控制規(guī)模是因基金管理人的能力遇到瓶頸還是由于公司創(chuàng)始人希望將更多精力投入到AI領(lǐng)域,則不得而知,。
從公開信息來看,幻方量化與深度求索之間并無直接的股權(quán)關(guān)系,,兩家公司各自在獨(dú)立運(yùn)營(yíng)和發(fā)展,。不過,早在2023年4月,,幻方量化就宣布成立新組織,,集中資源和力量,探索AGI的本質(zhì),,并稱多年以來該公司堅(jiān)持把營(yíng)收的大部分投入人工智能領(lǐng)域,,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模的研究,,探索人類未知的奧秘,,這足以表明深度求索是幻方量化直接孵化出來的一家AI公司,而兩家公司共同的創(chuàng)始人梁文鋒則發(fā)揮著關(guān)鍵的橋梁作用,。
在被問及為何一家量化私募要入局大模型時(shí),,梁文鋒表示,“我們做大模型,,其實(shí)跟量化和金融都沒有直接關(guān)系,,當(dāng)時(shí)我們嘗試了很多場(chǎng)景,,最終切入了足夠復(fù)雜的金融,而通用人工智能可能是下一個(gè)最難的事之一,,所以對(duì)我們來說,,這是一個(gè)怎么做的問題,而不是為什么做的問題,。過去很多年,,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),,但這并非是一種理所當(dāng)然,。這一波浪潮里,我們的出發(fā)點(diǎn),,就不是趁機(jī)賺一筆,,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展,?!?/p>
DeepSeek-V3除了令硅谷大佬側(cè)目,其領(lǐng)先性還被獨(dú)立評(píng)測(cè)網(wǎng)站Artificial Analysis“蓋章認(rèn)證”,。Artificial Analysis對(duì)DeepSeek-V3就質(zhì)量,、價(jià)格、性能等關(guān)鍵指標(biāo)與其他人工智能模型進(jìn)行對(duì)比后得出了結(jié)論:“DeepSeek-V3模型超越了迄今為止發(fā)布的所有開放權(quán)重模型,,并且擊敗了OpenAI的GPT-4o(8月),,并接近Anthropic的Claude 3.5 Sonnet(10月)。目前唯一仍然領(lǐng)先于DeepSeek的模型是谷歌的Gemini 2.0 Flash和OpenAI的o1系列模型,。領(lǐng)先于阿里巴巴的Qwen2.5 72B,,DeepSeek現(xiàn)在是中國(guó)的AI領(lǐng)先者?!?/p>
在殺入AI腹地之前,,梁文鋒對(duì)AI確實(shí)鐘情已久。在幻方量化的官網(wǎng)首頁C位有一句話:“使用AI進(jìn)行投資的對(duì)沖基金”,。從2019年開始,,幻方量化更是加大投資于深度學(xué)習(xí)訓(xùn)練平臺(tái),先后推出了“螢火一號(hào)”和“螢火二號(hào)”,,前者投資2億元,,搭載了1100塊GPU,后者于2021年推出時(shí)將投入增加到10億元,,搭載了約1萬張英偉達(dá)A100顯卡,,這也是當(dāng)時(shí)最先進(jìn)的GPU之一。到2022年,OpenAI發(fā)布了ChatGPT的公開測(cè)試版本,,掀開AI新篇章,,也給擁有較強(qiáng)算力儲(chǔ)備和技術(shù)平臺(tái)的幻方帶來了抓住這波AI熱潮的最佳機(jī)遇。
如果說算力儲(chǔ)備讓幻方對(duì)國(guó)內(nèi)大模型玩家擁有一定優(yōu)勢(shì),,那么基于算法優(yōu)化的訓(xùn)練成本優(yōu)勢(shì)或是其在迎戰(zhàn)國(guó)際領(lǐng)先玩家時(shí)的主要?dú)⑹诛怠?/p>
在DeepSeek研究團(tuán)隊(duì)同步公開的技術(shù)論文中,,一個(gè)細(xì)節(jié)引發(fā)廣泛關(guān)注:DeepSeek-V3整個(gè)訓(xùn)練過程僅用了不到280萬個(gè)GPU小時(shí),按每GPU小時(shí)2美元計(jì)算,,模型全部訓(xùn)練成本僅為557.6萬美元(約4000萬元人民幣),,這一成本不到Llama-3405B超6000萬美元訓(xùn)練成本的十分之一,幾乎是GPT-4o訓(xùn)練成本的二十分之一(據(jù)Anthropic CEO達(dá)里奧·阿莫迪不久前透露的數(shù)據(jù),,GPT-4o訓(xùn)練成本約為1億美元),。
Meta的AI研究科學(xué)家田淵棟稱,DeepSeek“在非常有限的預(yù)算下實(shí)現(xiàn)強(qiáng)勁表現(xiàn),,這是一項(xiàng)了不起的工作”,。
這一成本優(yōu)勢(shì)在2024年5月發(fā)布DeepSeek-V2開源模型時(shí)就已初步展露:DeepSeek-V2 的推理成本僅為每百萬tokens 1元,遠(yuǎn)低于Llama370B和GPT-4 Turbo等,。而最新面世的DeepSeek-V3的API定價(jià)進(jìn)一步下降,,輸入每百萬tokens 0.5元(緩存命中)/2元(緩存未命中),輸出每百萬tokens 8元,,性價(jià)比不僅進(jìn)一步碾壓美國(guó)領(lǐng)先AI模型,,且在價(jià)格戰(zhàn)已烽煙四起的國(guó)產(chǎn)模型中也相當(dāng)有競(jìng)爭(zhēng)力。
目前來看,,DeepSeek在邁向“國(guó)產(chǎn)大模型之光”的路途上,,主要挑戰(zhàn)除了梁文鋒直言的“高端芯片的獲取問題”,可能還有量化私募在國(guó)內(nèi)所受的毀遠(yuǎn)大于譽(yù)的境況,。有市場(chǎng)人士質(zhì)疑,,如此強(qiáng)大的模型是否會(huì)變成資本市場(chǎng)上更鋒利的鐮刀?但反過來說,,如果投資者確實(shí)被量化“收割”,可能也是在以另一種方式在推動(dòng)中國(guó)AI的發(fā)展,。(財(cái)富中文網(wǎng))