无码中文字幕av免费放

從DeepSeek到“赤兔”:國產AI生態(tài)如何打破英偉達依賴?

北京時間4月16日,據彭博社報道,英偉達周二在監(jiān)管文件中表示,美國政府已于周一通知公司,H20芯片未來在出口至中國時需要“無限期”申請許可證。

英偉達因此預警稱,公司將在本財年第一季度計入大約55億美元的費用,這些費用與H20系列芯片相關的“庫存、采購承諾及相關準備金”有關。

正如英偉達所言,進一步收緊出口限制只會強化中國擺脫美國技術依賴的決心,并將削弱美國企業(yè)的競爭力。

現在,美國政府給英偉達的心臟刺入了一把尖刀,更是給國產芯片生態(tài)發(fā)展送了一個助攻。

今年3月,鳳凰網科技與專注做AI智能算力基礎系統(tǒng)軟件的公司清程極智進行了一場對話,這正是一家專注于推動國產芯片發(fā)展的公司,其最近開源的赤兔,可以幫助國產芯片更好跑滿血版DeepSeek。

鳳凰網科技《浪潮》出品

作者 董雨晴

在五道口的清華科技園,很容易偶遇清華系的人工智能公司,但今天,這里最忙碌的身影不再專屬于基座大模型六小龍,更為顯眼的是位于中間層的AI infra(基礎設施)公司。

清程極智就是這樣一家企業(yè),2023年底,清華大學計算機系里的一伙人創(chuàng)辦了清程極智,清華大學計算機系長聘教授翟季冬出任首席科學家,翟教授曾經帶領清華超算團隊奪得過十幾個世界冠軍,清程極智的核心成員也多來自于清華計算機系高性能計算研究所,CEO湯雄超即是如此。

他們是國內少有的有過十萬臺服務器超大規(guī)模國產算力集群使用和調優(yōu)經驗的團隊。而大規(guī)模集群的訓練和推理,是算力發(fā)展過程中最復雜的一種情況。

成立僅一年,清程極智就拿到了兩輪投資,其中包括北京市人工智能產業(yè)投資基金與中科創(chuàng)星。中科創(chuàng)星曾表示,國內AI Infra市場在編譯器和并行訓練推理系統(tǒng)等核心技術軟件方面尤為空缺,而清程極智是國內少有的完全掌握全棧研發(fā)能力的團隊。

今年初,DeepSeek的爆火,為AI infra添了一把柴。更早就預判到推理側需求的清程極智直接迎來了業(yè)務上的爆發(fā)。

湯雄超告訴鳳凰網科技,清程極智的新增需求幾乎都來自于推理側?!拔覀冎笆怯型评硭懔π枨罂焖僭鲩L這樣的一些判斷,但是沒想象到它來得這么快,這么洶涌”。

隨著整個大模型算力需求的趨勢從訓練側轉向推理側,相應的硬件供給矛盾也逐漸凸顯?!癉eepSeek也在某種程度上拉大了國產算力與英偉達的差距”。

湯雄超認為,DeepSeek通過算法的創(chuàng)新突破了大規(guī)模硬件的瓶頸,這可以很好的解決當前國內算力不足的窘迫,給AI企業(yè)提供一個創(chuàng)新的樣本。

但同時,DeepSeek的技術創(chuàng)新主要圍繞英偉達H卡的架構,DeepSeek模型采用的FP8數據格式與英偉達H系列卡深度綁定,未來可能還會支持更新的FP4等,但目前大多數國產芯片尚沒法原生支持FP8, “從這個層面看,硬件層面產品的代際差距拉大了”。如何發(fā)揮Infra層的作用,通過軟硬協(xié)同,將優(yōu)秀的國產大模型和國產硬件更好的協(xié)同起來,以及把市場上的閑置算力更好的用起來,是清程極智始終在思考的。

抱著這樣的想法,今年初,清程極智與清華共同開源了大模型推理引擎“赤兔”,通過赤兔的部署,大部分英偉達老卡舊卡及國產芯片都可支撐DeepSeek滿血版,與此同時在首期開源的版本中,對比國際主流開源推理引擎,在算力減少一半的基礎上,速度還能翻番。

赤兔的出現對于國產算力而言是一股強大的驅動力,特別針對國產算力在支持DeepSeek方面是重要的催化劑,于當下而言更是恰逢其時。

一些例子已在證明。去年,算力概念火熱時期,就有聲音認為,市場上部分國產算力是屬于空置狀態(tài)。但DeepSeek的火熱激活了國產算力市場。據湯雄超觀察,他發(fā)現DeepSeek走紅之后,此前不少閑置的算力已經運轉起來。

赤兔的出現,更是對國產算力的重大利好。短期來看,它實現了 DeepSeek FP8 精度模型在存量GPU 上的無損且高效部署。長期來看,赤兔的開源是國產大模型、國產算力和國產引擎閉環(huán)形成中的必要一環(huán)。

在這個特別的時期,鳳凰網科技《浪潮》與清程極智CEO湯雄超進行了一場對話,聊了聊他對于DeepSeek爆火之后,國產生態(tài)變化的思考,以下是對話全文,經編輯發(fā)布:

談推理側需求的爆發(fā):閑置的算力都用起來了

鳳凰網科技:你們最近一兩個月在忙著做什么?

湯雄超:變化主要在業(yè)務精力的調整上。我們是做AI智能算力基礎系統(tǒng)軟件的,業(yè)務精力的投入力度顯然也是跟市場上算力需求的變化是相匹配的。去年其實大部分的算力需求是來自于預訓練這一側,包括非常多的像英偉達、不同廠商的國產卡,千卡集群、萬卡集群、異構集群上做預訓練,優(yōu)化他們的訓練性能,加速降本。

去年我們也有在做推理的一些工作,我們和燧原科技一起做的高吞吐推理一體機拿了不少獎項,在多模態(tài)方面,我們去年是跟生數科技聯合優(yōu)化,對于圖片生成有接近5倍的提速。但是相對來說,去年推理側的算力需求相對于預訓練側來說是比較小的,今年DeepSeek走紅之后,我們感覺到的最大的一個變化,就是推理算力的占比有一個非常大的提升。

鳳凰網科技:大概是一個什么樣的比例變化?

湯雄超:現在我們新增的業(yè)務基本上都來自于推理側。其實我們之前是有這樣的一些判斷,但是我們沒有想象到它來得這么快,這么洶涌。去年底的時候,OpenAI的o1發(fā)布了之后,其實大家也都能感覺到推理算力的占比一定是會提升的,但是當時的話,OpenAI還是遙遙領先。開源的話其實之前一直也主要以Llama和千問這種傳統(tǒng)的大模型為主,但是DeepSeek R1的出現確實很驚艷,我們也看到隨著而來整個推理算力,包括推理方面的需求都變得非常多。

鳳凰網科技:我記得你去年其實就說過,部署一體機可能還是應該專注于推理側。

湯雄超:其實現在回過頭來看,我們現在正在做的就是當初的判斷,比如當初判斷推理算力將有大規(guī)模爆發(fā),隨之帶來的大模型私有化部署需求等也是我們正在忙碌的事。而且我們也看到,現在推理跟訓練有一些趨同的地方在于大家都會逐漸形成對集群算力有需求的狀態(tài)。以前推理市場更多是獨自的分散需求現在也需要一個集群。但是確實從所需要的芯片能力來說,訓練側對計算能力可能要求還是更高一些

鳳凰網科技:推理算力需求的爆發(fā)也隨之帶來了國產算力的爆發(fā)嗎?

湯雄超:兩個方面來說,一方面隨著大模型私有化部署需求的增加,我們會看到一些以前的閑置算力確實正在被消化。

但另一方面我們也可以看到DeepSeek拉大了國產算力和英偉達的差距。有一種聲音是認為DeepSeek的出現是縮小了國產算力和英偉達之間的差距,我認為這種說法也沒錯,因為在超大規(guī)模預訓練集群的場景下,國產算力和英偉達的差距非常大,系統(tǒng)穩(wěn)定性、可用性、芯片出貨量等等都是問題;現在DeepSeek破除了對超大規(guī)模預訓練集群的依賴,讓更多的算力需求轉向推理側,相當于降低了使用國產算力替代方案的難度。

但是我們單純從推理側來說的話,其實DeepSeek的出現更加拉大了國產算力跟英偉達的差距。雖然大家也看到DeepSeek開源了非常多的東西,但他們的一些技術創(chuàng)新更多是跟英偉達

H卡架構的卡綁定的,很多優(yōu)化無法直接復制到國產算力上。

DeepSeek滿血版本身是FP8原生訓練的,但目前幾乎所有的國產卡都不支持FP8的計算,如果要部署DeepSeek滿血版,需要把FP8轉換成其它數據格式,這樣有時會導致顯存占用大,用起來非???,有時會使模型精度受損,推理的效果不盡人意,那這樣的話大家用國產卡的意愿又沒有那么高了,同時未來英偉達會支持FP4等新的數據類型,現在的差距在未來有可能進一步加大,從這個角度上來說,DeepSeek的出現讓這個差距顯得更加明顯。

我們前段時間開源了赤兔,因為我們覺得DeepSeek幾乎是一個我們在開源社區(qū)能拿到的最好的模型,但是它跟非常難獲得的硬件是深度綁定的,大家利用現有的硬件條件把它充分利用起來還是有很高的門檻,因此我們開源了赤兔推理引擎,讓市場上的英偉達的大部分老卡舊卡以及國產芯片,支持FP8計算模型的推理,同時又做了一些優(yōu)化助力計算效率的提升,使得不僅用的起來,還比原來便宜,速度也更快。

談赤兔開源:給國產芯片送助攻

鳳凰網科技:赤兔的開源對行業(yè)來說價值不小,你們當時為什么直接選擇了開源?

湯雄超:我們本身是一個商業(yè)公司,但是我們覺得開源赤兔推理引擎或者開源這件事本身跟我們獲得商業(yè)上的收益并不是沖突的。第一我們覺得赤兔的技術方案確實非常的有價值,是可以給整個國產AI行業(yè)的生態(tài)帶來正向影響的,我們也非常愿意和大家能夠共享這樣一個技術的進步,從另外一個方面,從商業(yè)上的角度來考慮的話,我們的價值肯定是多維的?說個最簡單的例子,雖然赤兔是開源的,但是需要基于赤兔進行部署,需要運維,而我們本身是最懂赤兔的。

更長期的角度上來說,比如都是支持原生FP8的推理訓練,但實際上我們也可以提供不同性能水平的算子的實現,能夠通過軟硬協(xié)同更廣泛的提升國產AI芯片的性能。但是從更本質的角度來說,我們在創(chuàng)立之初就是希望能夠促進國產生態(tài)的發(fā)展,我們也相信算力國產化是大趨勢,所以我覺得像這種比較有意義的事情,還是比較愿意開源出來,讓大家一起來分享idea。

鳳凰網科技:你剛才說原來大家浪費的算力已經被用起來了,能不能舉個例子?

湯雄超:我們了解到的是,有很多庫存的國產算力,可能本來囤在一些算力中心里面,但在春節(jié)后陸陸續(xù)續(xù)的全都跑起來了。之前有很多的算力是不太好用起來的,甚至就處于一個關機的狀態(tài),今年確實我們想租,他們說已經租完了,沒有了。

鳳凰網科技:之前聽說很多大廠本來都有自己開發(fā)的卡,但是自己的大模型也沒有用自己的卡,為什么沒用起來?

湯雄超:也不能說完全沒有用起來,可能就是相對用的比例沒有那么的高,因為我覺得主要還是英偉達的卡設計的水平,所能獲得的全球最先進的產能,以及多年以來維持的生態(tài)上的優(yōu)勢,使得業(yè)務部門在有選擇的情況下,還是會傾向于用比較簡單易用的、性價比高的英偉達的卡。

鳳凰網科技:所以這可能對國產算力的發(fā)展也是個阻礙。

湯雄超:我對國產芯片長期發(fā)展之后的性價比優(yōu)勢是比較有信心的。因為從長期的角度來看,從過往的經驗來看,我覺得國產的東西在性價比上面卷贏國外沒有什么大的問題,但肯定是需要有一個發(fā)展的過程。

鳳凰網科技:今年對國產算力,會有一個比較明顯的曲線變化嗎?

湯雄超:我覺得受太多因素的影響,我很難去評估什么時候會發(fā)生一個變化。首先國內的芯片設計水平肯定是在持續(xù)的發(fā)展,包括我們合作了這么多家芯片公司,也感覺到大家新一代的芯片都會比老一代的有一個非常大的提升。

但我覺得可能會有很多偶然因素在里面。另外在軟件生態(tài)上的話,我覺得也是看大家生態(tài)共建的水平怎么樣,這本身也是我們把赤兔開源出來,希望大家一起來做的事情。

鳳凰網科技:你們現在覺得哪些國產芯片的表現比較好?

湯雄超:如果我們看的話,去年也有一些國產芯片公司,已經開始走IPO的流程了,這些其實就相對來說,是比較成熟的,已經迭代了好幾個版本。芯片行業(yè)的話,雖然大家在做設計的時候都會考慮到很多,但確實有很多問題是要在使用中,在社區(qū)里面才會有反饋的,就包括我們在2010 年左右的時候,清華實驗室這邊就在搞英偉達CUDA的這些東西,其實那個時候也感覺各種問題。因為之前大家都是在英特爾 X86 上面做,英特爾的東西已經很成熟了,一做CUDA就發(fā)現適配性不好,自己也不習慣,一度感覺也沒那么好用。但是過了幾年之后,等到 2015 年的時候再想在CUDA上面去找一些它的缺陷就比較困難了。到現在的話實際相對來說CUDA生態(tài)也都變成一個很成熟的生態(tài),所以我覺得這些其實都是要有一個發(fā)展的過程。

談AI創(chuàng)企的發(fā)展:大模型跑起來只是第一步,還有很多問題沒解決

鳳凰網科技:你們在成立之初 “助力國產化”“大規(guī)模集群訓練”等標簽讓人印象深刻,現在公司發(fā)展了一年多,你認為這些代表你們的標簽有變化嗎?

湯雄超:我們之所以給別人留下了這個印象,只是說我們的技術特長和既往的項目經驗,在國產化方面積累是非常深的,特別是在大規(guī)模集群的訓練方面。我們當時成立公司的時候,其實主要考慮到我們自身的團隊基因或者說背景,我們有非常強的并行計算方面的,以及像這種芯片架構適配方面的優(yōu)勢。因為我們過去做高性能計算,10年前就遇到過今天芯片行業(yè)的問題,今天AI領域發(fā)生的一切,我們都非常熟悉。但是通過一些軟硬件的協(xié)同設計,做一些比較好的軟件實現的話,還是能夠把國產算力充分發(fā)揮起來的。本身如果從性價比的角度去看,我們會發(fā)現這種國外最先進的算力,是有高溢價的,如果真的愿意在軟件上面去做一些工作的話,其實最終國產的算力方案未必就不如國外的。

AI的發(fā)展肯定對算力的需求是越來越大的,首先,模型越來越大,AI的滲透率也會越來越高,另外從長期來看的話,可能會更多的轉向一個自主可控的國產算力趨勢。兩個明確的大方向下,我們覺得做這樣的一個公司,就是非常正確的事情。

鳳凰網科技:你覺得大模型的數據可能會越來越大,但現在各家可能已經不再去刻意卷參數了,甚至是不做預訓練了?

湯雄超:我們現在看到的是說預訓練的玩家可能會進一步的減少。就是可能有一些實力特別強的,還是會堅持去做預訓練,對于更多玩家來說,他可能覺得我自己做預訓練,不如等著這些寡頭來推出新的開源模型,像前段時間DeepSeek又發(fā)了V3的更新版,阿里的千問,其實更新都挺快的,所以對于很多參與者來說,自己做預訓練可能就不如等一下這些技術寡頭再給大家發(fā)一個新的福利。

鳳凰網科技:所以六小龍可能得換條路走?

湯雄超:我覺得對于更多新玩家來說,如果是做這種基于公開數據集的預訓練的話,一個是貴,一個是感覺還不如等大廠發(fā),另外一個角度上,對于一些做垂域大模型的公司來說,他可以深入到不同行業(yè)里面去,針對這些行業(yè)私有數據去做微調,做這種后訓練。這塊也比較有市場,因為我們確實看到通用大模型也不是全知全能的,肯定也需要獲得一些行業(yè)的特有知識,才能夠在垂類里面有更好的表現。

鳳凰網科技:你們現在做哪些類型的需求多一些?

湯雄超:其實都會有,我們現在更偏向于做這種本地化部署的業(yè)務,因為我剛剛說推理業(yè)務,其實你可以簡單分成,云上的MaaS和線下本地化部署。本地化部署的話,顯然大家一說就覺得像政企肯定會有很多這種強的數據安全的合規(guī)需求。其實也有很多我們所謂的這種私企或者民營企業(yè),其實他們也會有比較強的數據安全的要求,比如說金融行業(yè)或者法律行業(yè)。

我們覺得DeepSeek對大家有一個啟蒙的作用,讓大家意識到用大模型是大勢所趨了?;蛘哒f之前我覺得大模型更多是c端的在玩,現在就是強調了私有化部署,大家都會自問我的企業(yè)是不是真的要把大模型用起來了,所以現在不管是咨詢的還是真實迫切需要部署的,真的還挺多的。

鳳凰網科技:您說到清程更偏向于做這種本地化部署的業(yè)務,現在市場上對MaaS也有一些不同的聲音,您如何看待MaaS?

湯雄超:首先關于MaaS的需求是真實存在的,大家都是有共識的,就包括我自己也會調API來做一些開發(fā),因為確實調云上API比自己部署要稍微簡單。

但是大家討論比較多的是,有人用產品,但是你做產品也要有成本,那在商業(yè)上是不是盈利的?我覺得其實因素會非常的多,比如說算力的成本,產品的調用量,包括客戶付費的這種意愿等等,我覺得這些平時都比較復雜,而且這幾個因素本身不是固定不變的。

我們也有MaaS,也有一些客戶,他可能在私有化部署的時候,就是不想買硬件。如果我先租的話,先云上部署的話,先試試東西是不是真的有用,然后之后再說,我覺得很多東西的存在價值肯定是多維的。

所以我是覺得MaaS能不能盈利的話,其實可能會要用發(fā)展的眼光去看待,并不能一概而論。首先算力成本是不是會持續(xù)的下降?因為按照以前我們所熟知的這種摩爾定律來說,其實算力成本就是會逐年下降的。第二點是模型的能力,或者說同樣尺寸的模型能提供的能力是不是能夠持續(xù)的增長?我現在需要671B的模型,提供了一個表現,是不是過兩年之后我只要100B的模型就可以了?另外就是客戶付費的意愿,現在如果是單純的聊天,我肯定不愿意付很多錢,但是如果他未來幫我承接了很多很有價值的業(yè)務,那可能我付費的能力就提升了,比如現在收費標準是100萬token16塊錢,未來如果是高價值業(yè)務的話,可以提高價格啊。

鳳凰網科技:目前本地化部署這塊業(yè)務,清程的研發(fā)壓力會在哪些方面?

湯雄超:主要還是看我們追求一個什么樣的目標,因為本身我們是想向業(yè)界提供更加靈活的算力底座,包括支持不同架構的算力芯片。除了英偉達的這種旗艦的顯卡之外,也會支持一些老一點的型號,或者是一些國產GPU卡。因為有很多企業(yè)其實它也是先從低門檻的入手開始,會慢慢的擴大,所以我們會希望說算力底座是有彈性可伸縮的,你一開始不太好說直接批一個200萬的預算來買東西,而是買一個比如說幾萬、十幾萬的這種小的機器,上面可能就插了一兩張卡,等到有預算的時候,就補到8卡的一臺機器。

其實這兩點也是我們前段時間跟清華聯合發(fā)布開源赤兔引擎時提到的,我們會專注于做靈活的部署方案跟多元化的算力底座的支持,但是要支持這兩個特性的話,確實會給研發(fā)帶來一些額外的量。

鳳凰網科技:比如說哪些額外的工作量?

湯雄超:如果我只針對英偉達的H20來做,那我就只做一款芯片,但如果說我要支持更多的底層算力芯片的話,我需要考慮不同芯片的特性。從另外一個角度來說,雖然這么做短期內會難一些,但是我們還是會往這個方向去。這一方面還是剛剛提到,我們從公司成立之初,就覺得長期的國產化趨勢是比較明確的。從另外一個角度來說,我們的AI行業(yè)肯定不可能一直受制于人,你現在覺得H卡好用,但是明天就傳來說H20也要禁售,然后就一波漲價,當然后來也沒有禁售(編者注:本次對話發(fā)生于3月中下旬)。對我們來說就相當于算力底座是不可靠的,肯定不是一個好消息。為了能夠滿足這種不同芯片架構的適配,其實我們也有一些這種自動化的代碼生成的手段來加速這樣一個研發(fā)的過程,就包括其實去年我們一直在公開場合說,我們主要是三塊產品,一塊是大規(guī)模的訓練系統(tǒng),一塊是高性能推理引擎,還有一個就是智能編譯器,可以去做一些自動化的高性能代碼生成,這樣就可以減少一些算子開發(fā)的人力,加快我們的研發(fā)過程。

不過即使加速了也還是會有一些額外的壓力,但是我們覺得事情是值得做的,就包括我們前段時間開源赤兔,在英偉達平臺上可能只是一件錦上添花的事情,但是對國產算力來說,它就是成本降一半的一個非常有價值的事情。所以我們研發(fā)團隊做完了之后,確實也比較有成就感,大家其實也都挺開心的。

鳳凰網科技:你們現在人才方面的壓力會比較大嗎?

湯雄超:壓力挺大的,我們的技術門檻確實比較高。但我們公司還是保持嚴選狀態(tài),除了技術上的能力,更多看重人才對我們團隊文化的認同。

鳳凰網科技:你們現在更需要哪些方面的人才?

湯雄超:因為我們會持續(xù)的去做好推理引擎,AI系統(tǒng)層面的人才是我們一直關注的。另外因為 AI 應用落地的速度可能會加快,所以了解上層具體場景的解決方案的同學,我們最近也聊的比較多。大模型跑起來本身只是 AI 應用的第一步,一個基礎的聊天窗口,它能解決一些問題,但是也有很多問題它不太好解決。最典型的,幾乎所有的企業(yè)都想要一個知識庫,都想要有一個智能問答機器人,那其實不是說有一個 API就結束了,我還是要去做一些事情??赡苁峭ㄟ^微調的方式,或者通過一些別的方式,才能滿足千行百業(yè)的實際需求。