每日經(jīng)濟(jì)新聞 2025-12-29 18:13:45
今年10月,北京大學(xué)孫仲教授團(tuán)隊(duì)成功研制基于阻變存儲(chǔ)器的高精度、可擴(kuò)展模擬矩陣計(jì)算芯片,精度達(dá)24位定點(diǎn),提升5個(gè)數(shù)量級(jí)。該芯片可支撐6G、具身智能及AI大模型訓(xùn)練等場(chǎng)景,能在28納米及以上成熟工藝量產(chǎn),繞開光刻機(jī)限制。目前,芯片尚處實(shí)驗(yàn)室階段,更適用于中等規(guī)模場(chǎng)景。團(tuán)隊(duì)計(jì)劃兩年內(nèi)提升芯片陣列規(guī)模,以在更多場(chǎng)景產(chǎn)生實(shí)際效用。
每經(jīng)記者|張蕊 每經(jīng)編輯|廖丹

當(dāng)AI時(shí)代算力集群規(guī)模正逐步從萬(wàn)卡向十萬(wàn)卡、百萬(wàn)卡甚至千萬(wàn)卡升級(jí)時(shí),一支中國(guó)團(tuán)隊(duì)悄然另辟蹊徑。
今年10月,北京大學(xué)人工智能研究院/集成電路學(xué)院雙聘助理教授孫仲與北京大學(xué)集成電路學(xué)院蔡一茂教授、王宗巍助理教授率領(lǐng)的團(tuán)隊(duì)成功研制出基于阻變存儲(chǔ)器的高精度、可擴(kuò)展模擬矩陣計(jì)算芯片,在全球范圍內(nèi)首次將模擬計(jì)算的精度提升至24位定點(diǎn)精度,讓未來(lái)同等任務(wù)下使用更少的計(jì)算卡成為可能。
這是一種完全不同于目前所有商用量產(chǎn)芯片的新型芯片,計(jì)算精度從1%躍升至千萬(wàn)分之一;可以支撐6G、具身智能及AI大模型訓(xùn)練等多個(gè)前沿場(chǎng)景;更重要的是,它可在28納米及以上成熟工藝量產(chǎn),繞開光刻機(jī)“卡脖子”環(huán)節(jié)。
事實(shí)上,AI大模型、具身智能、6G等應(yīng)用背后都是矩陣計(jì)算,AI推理是做矩陣乘法,AI訓(xùn)練是在解矩陣方程。而英偉達(dá)的崛起正是得益于GPU(圖形處理器)很擅長(zhǎng)做矩陣計(jì)算。
作為北京大學(xué)人工智能研究院的研究員,“熱愛且擅長(zhǎng)”讓孫仲深耕模擬計(jì)算領(lǐng)域多年。從聚焦AI算法底層通用矩陣計(jì)算加速研究,到在《自然·電子學(xué)》《自然·通訊》等頂刊發(fā)表系列成果,他始終錨定模擬計(jì)算——這個(gè)上世紀(jì)30至60年代曾風(fēng)靡一時(shí)卻因精度瓶頸被數(shù)字計(jì)算取代的技術(shù),在他眼中正是突破算力困局的關(guān)鍵。
新型芯片研制成功對(duì)于應(yīng)對(duì)AI領(lǐng)域的算力與能耗挑戰(zhàn)有何意義?隨著摩爾定律漸趨終結(jié)、數(shù)字計(jì)算陷入能耗困局,GPU還能否一直“稱王”?近日,《每日經(jīng)濟(jì)新聞》記者對(duì)孫仲進(jìn)行了深入專訪。
NBD:芯片研制成功的意義是什么?有觀點(diǎn)認(rèn)為,它為算力領(lǐng)域提供了新的技術(shù)路線,有助于減少對(duì)單一計(jì)算范式的依賴,是否如此?
孫仲:確實(shí)如此。計(jì)算范式只有兩種:模擬(類比)計(jì)算與數(shù)字計(jì)算。當(dāng)前主流芯片——無(wú)論是GPU、TPU(張量處理器)、CPU(中央處理器)還是NPU(神經(jīng)網(wǎng)絡(luò)處理器)——都是數(shù)字芯片,底層都是硅基器件,基于邏輯門(邏輯函數(shù))、晶體管,都要二進(jìn)制化。以先進(jìn)GPU為例,一張卡可能集成超過1000億個(gè)晶體管,因此能提供很大的算力。但如果追本溯源,會(huì)發(fā)現(xiàn)數(shù)字計(jì)算其實(shí)并非一種很高效的計(jì)算方式。
舉例來(lái)說,想要完成一次簡(jiǎn)單的“1+1”需要28個(gè)晶體管,想完成兩個(gè)10位數(shù)的乘法需要約1萬(wàn)個(gè)晶體管。但正因?yàn)楝F(xiàn)在晶體管可以做得很小,才能在芯片上容納千億級(jí)的晶體管,所以它可以“以量換算”——一次操作要消耗1萬(wàn)個(gè)晶體管,它不在乎,因?yàn)樗銐蚨啵?000億除以1萬(wàn)還有1000萬(wàn),這意味著它還有很大算力。
而一個(gè)芯片里能有這么多晶體管,在于摩爾定律。我認(rèn)為摩爾定律是讓現(xiàn)在數(shù)字芯片如此成功的唯一推手。最初晶體管做出來(lái)大概是5厘米×5厘米×5厘米這么大,因?yàn)橛心柖桑?厘米變成5納米,所以千億級(jí)的晶體管也可以被塞進(jìn)去,否則,一萬(wàn)個(gè)晶體管可能要鋪滿整間屋子甚至整個(gè)樓層。
注:摩爾定律是由英特爾公司聯(lián)合創(chuàng)始人戈登·摩爾提出。該定律提到,當(dāng)價(jià)格不變時(shí),集成電路上可容納的晶體管數(shù)目每隔18至24個(gè)月增加一倍,性能也將提升一倍。
但如今摩爾定律趨于終結(jié),晶體管很難再微縮,所以業(yè)界現(xiàn)在只能橫向堆計(jì)算卡:少則百卡,多則萬(wàn)卡、十萬(wàn)卡。但這樣的方式我認(rèn)為是不可持續(xù)的——能耗、碳排放均呈指數(shù)級(jí)上升,與國(guó)家“雙碳”目標(biāo)相悖。因此,我認(rèn)為需要探索一種不同的計(jì)算范式,即模擬(類比)計(jì)算。
模擬計(jì)算并非全新的計(jì)算范式,在上世紀(jì)30至60年代曾被廣泛應(yīng)用,但隨著計(jì)算任務(wù)日益復(fù)雜,其精度瓶頸凸顯,逐漸被數(shù)字計(jì)算取代。我們這次研究的核心正是要解決模擬計(jì)算“算不準(zhǔn)”這一痛點(diǎn)。
NBD:模擬(類比)計(jì)算是比數(shù)字計(jì)算更高效嗎?
孫仲:是的。模擬計(jì)算也叫類比計(jì)算,人類從小算“1+1”,并非動(dòng)用28個(gè)晶體管,而是“一根筷子加一根筷子等于兩根筷子”“一棵樹加一棵樹等于兩棵樹”的物理類比,一根筷子、一棵樹都是物理系統(tǒng)。若將“筷子”“樹”縮至電子尺度——1個(gè)電子加1個(gè)電子是2個(gè)電子,這永遠(yuǎn)成立,要做計(jì)算的時(shí)候,就可以直接通過物理定律來(lái)做計(jì)算——相較于28個(gè)晶體管,電子級(jí)類比在硬件資源開銷與能耗上均下降數(shù)個(gè)量級(jí)。
數(shù)字計(jì)算是二進(jìn)制,都以0和1來(lái)表示信息,例如“5”被編碼為“101”,任何運(yùn)算都需通過邏輯門對(duì)二進(jìn)制信息進(jìn)行操作;模擬計(jì)算則無(wú)需編碼,“5”可直接對(duì)應(yīng)物理量(如5 V、5000Ω),加法與乘法都可以直接通過物理定律瞬時(shí)完成。
換句話說,數(shù)字計(jì)算中間有一個(gè)“翻譯”環(huán)節(jié),而這個(gè)環(huán)節(jié)把原本的信息“翻譯”得體量更為龐大,計(jì)算過程需要去一一處理這些更龐大的信息,才能得到針對(duì)原始問題的解。而模擬計(jì)算則省去了這個(gè)中間環(huán)節(jié),所以速度更快,能耗也大幅降低。
NBD:既然數(shù)字計(jì)算流程如此繁瑣,為什么要設(shè)計(jì)成這樣?為什么早期計(jì)算機(jī)仍然舍棄模擬計(jì)算而轉(zhuǎn)向數(shù)字?
孫仲:根本原因在于可靠性。轉(zhuǎn)成0和1,就只需要區(qū)分0和1,這是最可靠的。數(shù)字計(jì)算的魯棒性更好,抗干擾能力更強(qiáng);而早期模擬計(jì)算追求連續(xù)函數(shù)輸出,極易受噪聲影響,導(dǎo)致結(jié)果漂移,加之當(dāng)時(shí)也缺乏現(xiàn)在的穩(wěn)定器件,模擬精度難以保證,因此業(yè)界普遍轉(zhuǎn)向數(shù)字范式。
NBD:就是說模擬計(jì)算長(zhǎng)期受困于精度瓶頸,而你們的研究恰好解決了這一難題?
孫仲:是的。精度問題一直是“如鯁在喉”的關(guān)鍵痛點(diǎn),我們將相對(duì)誤差大幅壓降至千萬(wàn)分之一(10??)量級(jí),相當(dāng)于把這個(gè)“鯁”拿出來(lái)了,這也是我們的成果受到廣泛關(guān)注的核心原因。

NBD:將相對(duì)誤差壓降至千萬(wàn)分之一是怎么做到的?
孫仲:首先需要強(qiáng)調(diào)一個(gè)前提,提升精度不能以犧牲能效或速度為代價(jià),否則沒有意義。也就是說,不能精度提升了,能效反而下降或者計(jì)算速度比數(shù)字芯片還慢了。
為了提升精度,我們沿用了計(jì)算機(jī)領(lǐng)域的經(jīng)典迭代優(yōu)化算法。簡(jiǎn)單來(lái)說,就是基于2019年提出的低精度電路來(lái)解方程,解方程的過程就好比在一片山谷中找最低點(diǎn),能量函數(shù)最低點(diǎn)就是方程的最優(yōu)解。2019年的這個(gè)電路一上來(lái)就會(huì)告訴你最低點(diǎn)在某個(gè)盆地,它不是精確的最低點(diǎn),但是非常接近。之后再以高精度模擬計(jì)算電路反復(fù)修正,如果精確點(diǎn)是1,首次迭代得0.9,二次得0.99,三次得0.999??僅需數(shù)次迭代就能把精度提升非常多,并且能效仍比數(shù)字計(jì)算高數(shù)個(gè)量級(jí)。
NBD:能否具體介紹一下這款芯片?
孫仲:我們的研究以阻變存儲(chǔ)器為介質(zhì),摒棄傳統(tǒng)硅基晶體管與邏輯門,采用類比方式完成計(jì)算。具體而言,就是將待解的矩陣方程映射至電路物理量,使電路自發(fā)求解矩陣方程,而非由邏輯門一步步推算。
2019年我們用設(shè)計(jì)的第一個(gè)電路類比求解時(shí),可以求解成功,但精度比較低——1%量級(jí)的誤差,準(zhǔn)確度可達(dá)99%,聽起來(lái)還好,但對(duì)于需要級(jí)聯(lián)千步乃至萬(wàn)步的大規(guī)模計(jì)算任務(wù)而言,誤差將呈指數(shù)級(jí)累積——在半導(dǎo)體領(lǐng)域,如果每一步工藝成功率是99%,就意味著這個(gè)芯片做出來(lái)的成功率是0。同理,在計(jì)算環(huán)節(jié)若每步保留1%誤差,千步之后結(jié)果將面目全非。
因此,必須把單步誤差壓得足夠低,降至千萬(wàn)分之一乃至億分之一(10??)量級(jí),才能滿足AI訓(xùn)練等場(chǎng)景對(duì)FP16(浮點(diǎn)16位)精度的剛性需求。我們的研究正是將相對(duì)誤差從1%降至千萬(wàn)分之一,將精度提升至24位定點(diǎn)精度,提升了5個(gè)數(shù)量級(jí),使模擬計(jì)算首次具備與主流數(shù)字精度接軌的能力,24位定點(diǎn)精度相當(dāng)于數(shù)字計(jì)算的浮點(diǎn)32位(FP32),從而展現(xiàn)出廣闊的應(yīng)用前景。
NBD:在研制成功的過程中有沒有遇到一些困難?
孫仲:嚴(yán)格意義上的困難集中在認(rèn)知層面。模擬計(jì)算長(zhǎng)期被貼上“低精度”標(biāo)簽,早期我們自己也接受這個(gè)設(shè)定,所以在2019—2022年間,我們陸續(xù)設(shè)計(jì)了多款電路,解各類矩陣方程,但都停留在低精度(1%左右的相對(duì)誤差)。每當(dāng)向外推介時(shí),對(duì)方一句“精度問題怎么解決”便足以讓討論終止,低精度應(yīng)用的局限性顯而易見。
真正要應(yīng)用的話,高精度肯定是一個(gè)基本需求,只有突破了精度瓶頸,才能談規(guī)模應(yīng)用。上世紀(jì),模擬計(jì)算就是因?yàn)榫绕款i才被數(shù)字計(jì)算取代。但從科學(xué)探索和原始創(chuàng)新的角度來(lái)看,低精度階段必不可少。
NBD:這款新型芯片的創(chuàng)新點(diǎn)主要是什么?
孫仲:歸納起來(lái),主要?jiǎng)?chuàng)新有三點(diǎn)。
第一,器件層面:上世紀(jì)的模擬計(jì)算都是基于傳統(tǒng)硅基電路,多用于求解微分方程;我們則首次采用已可量產(chǎn)的、足夠成熟的阻變存儲(chǔ)器作為核心器件,面向矩陣方程求解,形成“現(xiàn)代模擬計(jì)算”范式。
第二,電路層面:2019年我們提出一種全新的反饋電路,這是核心??梢栽诓伙@著增加能耗與延時(shí)的前提下,將計(jì)算誤差由1%降低至千萬(wàn)分之一量級(jí),使模擬計(jì)算首次具備與FP32等同的數(shù)值可靠性。
第三,算法層面:引入了經(jīng)典的迭代優(yōu)化及“位切片”算法——將24位定點(diǎn)數(shù)拆分為8組3位并行或串行處理,再通過移位相加得到全精度結(jié)果,從而高效實(shí)現(xiàn)高精度矩陣乘法。
NBD:阻變存儲(chǔ)器在這個(gè)過程中扮演什么角色?
孫仲:阻變存儲(chǔ)器是實(shí)現(xiàn)高速、低功耗矩陣方程求解的硬件載體,我們利用它實(shí)現(xiàn)了最核心的矩陣方程求解的電路,能夠?qū)崿F(xiàn)快速近似求解,然后再用高精度的模擬計(jì)算系統(tǒng)迭代,實(shí)現(xiàn)高精度的方程求解。
但這樣的載體其實(shí)并不一定非要是阻變存儲(chǔ)器,是因?yàn)槲乙恢睆氖伦枳兇鎯?chǔ)器的研究,原則上,其他的存儲(chǔ)器(比如相變、磁性、鐵電存儲(chǔ)器等)都可以承載該電路。換句話說,類比計(jì)算的核心是數(shù)學(xué)到物理的映射,物理系統(tǒng)可以是多元的,不局限于阻變存儲(chǔ)器。

NBD:目前這款芯片的研究處于什么階段?
孫仲:目前還處在實(shí)驗(yàn)室階段。我們假設(shè)未來(lái)6G大規(guī)模MIMO(天線陣列)的某類任務(wù)由我們的芯片執(zhí)行,并給出相應(yīng)的性能評(píng)估,屬于原理性驗(yàn)證,并非現(xiàn)網(wǎng)實(shí)測(cè)。
由于實(shí)驗(yàn)室的規(guī)模比較小,尚無(wú)法與高端數(shù)字芯片抗衡。晶體管已經(jīng)可做到納米尺度并且運(yùn)行頻率極高,在小規(guī)模任務(wù)上優(yōu)勢(shì)明顯。我們的芯片更適用于中等規(guī)模場(chǎng)景,也就是在中等規(guī)模才能發(fā)揮出優(yōu)勢(shì)。太小則性能不及,超大規(guī)模則暫時(shí)夠不著。
目前,所有主流AI訓(xùn)練均為一階方法,二階訓(xùn)練方法速度會(huì)更快,迭代次數(shù)會(huì)更少,但是每次迭代都要解一次矩陣方程,單次計(jì)算量巨大,這對(duì)于數(shù)字芯片來(lái)說是很難的。但我們的技術(shù)恰好可以去做快速矩陣方程求解,因此理論上非常適合來(lái)做二階訓(xùn)練的加速。
NBD:二階訓(xùn)練是否特指大模型的訓(xùn)練?
孫仲:并非只有大模型才是AI,小規(guī)模的神經(jīng)網(wǎng)絡(luò)也是AI,所以無(wú)所謂大模型小模型,小至傳統(tǒng)神經(jīng)網(wǎng)絡(luò),大至千億參數(shù)模型,都可以使用二階訓(xùn)練;其目的是為了讓AI訓(xùn)練得更快。
NBD:除AI訓(xùn)練、6G外,還有哪些潛在應(yīng)用?
孫仲:具身智能、超級(jí)計(jì)算。像氣象預(yù)報(bào)、量子力學(xué)、熱擴(kuò)散模擬等超級(jí)計(jì)算都是解微分方程,而微分方程在數(shù)字計(jì)算機(jī)上需轉(zhuǎn)成矩陣方程后才能求解。因此,超算中心的絕大部分算力實(shí)質(zhì)上都是用于解矩陣方程。所以,超算領(lǐng)域甚至可以是一個(gè)更大的、更契合的應(yīng)用場(chǎng)景。
NBD:在超算領(lǐng)域應(yīng)用還需要做什么?
孫仲:需要擴(kuò)大芯片的矩陣規(guī)模(指數(shù)據(jù)規(guī)模,即矩陣行列數(shù)),因?yàn)槌阋獾亩际呛艽蟮膯栴},涉及的矩陣規(guī)??赡苁恰鞍偃f(wàn)×百萬(wàn)”級(jí)別的。如果需求是解“百萬(wàn)×百萬(wàn)”的方程,硬件也需要對(duì)應(yīng)擴(kuò)展。當(dāng)然,我們不會(huì)直接去做“百萬(wàn)×百萬(wàn)”的陣列,而是通過算法設(shè)計(jì)實(shí)現(xiàn)“以小博大”——例如以512×512硬件求解1024×1024方程,以1024×1024硬件求解2048×2048方程,依此類推。
NBD:這個(gè)規(guī)模要做大依靠什么?
孫仲:要流片,要去代工廠做。跟數(shù)字芯片的流程是一樣的,我們的芯片也能在現(xiàn)有的代工廠產(chǎn)線上做出來(lái),這是相較于量子計(jì)算、光計(jì)算的顯著優(yōu)勢(shì)——它們因材料與工藝條件差異,無(wú)法沿用當(dāng)前生產(chǎn)線。
NBD:預(yù)計(jì)多久能夠落地到消費(fèi)端?若面向消費(fèi)端,還需完成哪些關(guān)鍵環(huán)節(jié)?
孫仲:這沒辦法準(zhǔn)確預(yù)估。首先我們要擴(kuò)大芯片的陣列規(guī)模;其次必須投入大量工程資源,包括流片、測(cè)試、可靠性驗(yàn)證等量產(chǎn)前工作;最后還需商業(yè)推動(dòng)——說服產(chǎn)業(yè)鏈伙伴放棄現(xiàn)有方案、采用新技術(shù),這都屬于典型的市場(chǎng)行為。
NBD:下一步有什么規(guī)劃?
孫仲:就團(tuán)隊(duì)內(nèi)部而言,我們?cè)O(shè)定的工作節(jié)點(diǎn)是:兩年內(nèi)把陣列從16×16提升至128×128,并力爭(zhēng)擴(kuò)展至512×512。達(dá)到這樣的規(guī)模后,就能夠在具身智能、6G通信等中等規(guī)模矩陣場(chǎng)景產(chǎn)生實(shí)際效用。
NBD:要在兩年內(nèi)完成16×16到512×512的躍升,技術(shù)難度如何?
孫仲:芯片規(guī)模擴(kuò)大必然伴隨寄生效應(yīng)、良率控制、功耗分布等工程挑戰(zhàn),所以肯定是有難度的,需要在器件、電路與工藝層面同步優(yōu)化。
需要強(qiáng)調(diào)的是,新型芯片問世,證實(shí)了一條新路徑的可行性。我們需要提前做技術(shù)儲(chǔ)備:當(dāng)某類計(jì)算任務(wù)(如超級(jí)AI)急切需要做矩陣方程求解時(shí),中國(guó)要有現(xiàn)成方案和團(tuán)隊(duì)站在那里,可能不是我們,是其他團(tuán)隊(duì),但要有這樣的儲(chǔ)備。GPU當(dāng)年僅用于游戲,2012年因AI需求爆發(fā)而一飛沖天;同理,中國(guó)必須儲(chǔ)備多種先進(jìn)技術(shù),以等待屬于自己的“2012時(shí)刻”。當(dāng)窗口開啟,技術(shù)儲(chǔ)備將決定我們能否抓住下一波浪潮。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP