AI怎樣改變所有學(xué)科?從“工具的革命”到“革命的工具”
本文系上海人工智能實驗室主任、清華大學(xué)惠妍講席教授周伯文在2025年中關(guān)村論壇上的講稿。 在周伯文看來:科學(xué)研究,是研究者、研究工具和研究對象一切關(guān)系的總和,當(dāng)前的AI for Science在單點取得了可觀的進(jìn)展,實現(xiàn)了工具層面的革新,然而要成為“革命的工具”,需要采用“通專融合AGI”方式。
● ● ●
2023年1月5日,《自然》雜志發(fā)表了一篇具有重要影響力的封面論文,對過去七十年間多個學(xué)科領(lǐng)域每篇論文的平均影響力進(jìn)行了系統(tǒng)性分析。研究結(jié)果顯示,盡管在這一階段全球科研論文發(fā)表數(shù)量和專利數(shù)量持續(xù)增長,但其實際影響力卻快速下降。這一現(xiàn)象廣泛存在于生命、物理、社會等學(xué)科領(lǐng)域,也包括計算機(jī)科學(xué)。
與此同時,人工智能領(lǐng)域正在加速發(fā)展。自2012年以來,arXiv平臺上的人工智能相關(guān)研究論文數(shù)量已呈現(xiàn)指數(shù)級增長,且在去年獲得諾獎。這些宏觀背景促使我們深入思考,人工智能與科學(xué)研究如何深度融合?科學(xué)論文和專利影響力下降的原因,并不是科學(xué)家的能力或素質(zhì)比此前下降了,而是因為科學(xué)這座“大廈”經(jīng)過100多年的修建已經(jīng)越來越完善,每個學(xué)科變成一個“小房子”——如何打通這些“小房子”之間的壁壘?如何讓每個領(lǐng)域的工作帶來更大影響力?這對研究者和研究工具提出了更高的要求。
在上述背景下,運用人工智能幫助科學(xué)研究已經(jīng)成為普遍共識。這一共識體現(xiàn)在美國頂尖人工智能研究機(jī)構(gòu)的行動上,例如OpenAI宣布與美國多個國家級實驗室開展緊密合作,運用人工智能助力重大科研突破;Anthropic、xAI、Thinking Machines等多家企業(yè)也把“理解宇宙、幫助科學(xué)、更好地思考”設(shè)為遠(yuǎn)期目標(biāo)。
01
從科學(xué)研究最新進(jìn)展來看,在生命科學(xué)、數(shù)學(xué)、生物、材料科學(xué)等具體領(lǐng)域,用人工智能助力科學(xué)研究已經(jīng)不再是新鮮事——科學(xué)研究“工具的革命”已經(jīng)悄然發(fā)生。在這個重要的時間節(jié)點上,如何系統(tǒng)性思考,進(jìn)行頂層設(shè)計,面向Science與AI進(jìn)行有組織的科研,是需要思考和討論的重要話題。
2024年諾貝爾化學(xué)獎得主,DeepMind公司CEO Demis Hassabis在諾獎頒獎典禮上總結(jié)了適合AI發(fā)展的科研領(lǐng)域的三個標(biāo)準(zhǔn):第一,存在巨大的組合搜索空間;第二,具備清晰明確的目標(biāo)函數(shù);第三,擁有大量可靠數(shù)據(jù),或者具有高效準(zhǔn)確合成數(shù)據(jù)的方法。這三個標(biāo)準(zhǔn)在過往的成功案例中已經(jīng)得到了充分驗證,但是尚未充分考慮到AI在未來三到五年的發(fā)展可能帶來的巨大潛力。
我認(rèn)為,AI對所有科研工作的作用都可以歸納為它如何幫助研究對象、研究工具,以及研究者三個層面。上述關(guān)于研究領(lǐng)域的選擇標(biāo)準(zhǔn)都可以被歸納為研究工具,即如何利用人工智能更高效地解決計算問題(AI for Computation)。然而,完整的科學(xué)研究過程不僅包含計算環(huán)節(jié),還涉及多個重要方面:首先是對研究對象,即AI如何提升對研究對象的觀察、理解和表征,這些表征最終都會轉(zhuǎn)化為數(shù)據(jù)(AI for Data)。在這些數(shù)據(jù)的表征、理解、獲取和修改等各個環(huán)節(jié),AI分別能發(fā)揮哪些作用是一個重要問題,同時也是重大機(jī)會。其次是研究者(AI for Innovator),即科學(xué)家本身??茖W(xué)研究的天花板往往取決于研究者自身的認(rèn)知局限。隨著學(xué)科劃分越來越細(xì),要做出具有重大影響力的工作,僅靠單一領(lǐng)域的專業(yè)知識和經(jīng)驗已經(jīng)遠(yuǎn)遠(yuǎn)不夠。如何幫助科學(xué)家提出更好的問題、找到更有價值的研究方向,都是AI for Science應(yīng)該著力解決并且可能帶來巨大回報的領(lǐng)域。
02
這就引申出另一個問題——如何定義AI for Science,如何將AI for Science翻譯成中文?
針對這個問題,我們曾訪談了來自不同學(xué)科領(lǐng)域的上百位科學(xué)家,特別是青年科研人員。主要存在兩種觀點:第一種觀點認(rèn)為,AI for Science主要是指人工智能作為科研工具,重點在于如何具體應(yīng)用;第二種觀點則認(rèn)為,“for Science”是修飾語,AI是核心詞,重點是打造真正能驅(qū)動科學(xué)研究的AI這一懸而未決的問題。Demis等AI科學(xué)家最后都把問題收斂成AI for Computation,而要讓AI在科學(xué)研究中取得實質(zhì)性突破,還有大量工作要做。
那么,什么才是for Science的AI?
科學(xué)家通常同時具備廣博的通識能力和精深的專業(yè)知識,這種“通專融合”的能力正是優(yōu)秀科學(xué)家的核心特質(zhì),這一理念也恰好與人工智能的發(fā)展趨勢不謀而合。
人工智能的發(fā)展路徑可以抽象成一個二維路線圖:橫軸表示專業(yè)深度,縱軸表示泛化能力。在Transformer架構(gòu)出現(xiàn)之前,人工智能發(fā)展主要沿著專業(yè)深度方向推進(jìn),從深藍(lán)到AlphaGo都是典型代表。GPT系列模型出現(xiàn)后,通過智能壓縮,在提升模型泛化能力方面取得重大突破,但此類模型專業(yè)深度嚴(yán)重不足。目前學(xué)界已經(jīng)開始認(rèn)識到這一發(fā)展路徑的局限性,通過在預(yù)訓(xùn)練后增加后訓(xùn)練來提升模型推理深度,但其專業(yè)度仍然有限。要真正通過“通專融合”的路徑來解決科學(xué)問題,AI方面仍然有很多工作要做。
“高泛化性+高專業(yè)性”的右上角區(qū)域是最具價值的領(lǐng)域,當(dāng)前的技術(shù)路線都在迂回曲折地向這個方向逼近,那么有沒有更高效的方法?
在單點的科學(xué)研究上,人工智能已經(jīng)成為非常重要的新型研究工具,可謂帶來了“工具的革命”。如果能找到通專融合的突破口,就可能創(chuàng)造出“革命的工具”,進(jìn)而通過“工具的革命”發(fā)現(xiàn)更具革命性的新工具。
基于對科學(xué)研究的長期思考,我認(rèn)為科學(xué)研究是研究者、研究工具和研究對象一切關(guān)系的總和。任何科學(xué)研究都離不開三大要素:研究者、研究工具和研究對象。研究者在認(rèn)知驅(qū)動或好奇心驅(qū)使下,選擇合適的工具來理解研究對象,提出新的理論并進(jìn)行驗證。
在傳統(tǒng)的科研關(guān)系中,人類研究者通常是單一領(lǐng)域的專家,對研究工具具備一定知識,對研究對象采用單維或低維的數(shù)據(jù)表征。AI for Science可以在多個層面發(fā)揮作用:在單一節(jié)點上,可以幫助研究者理解文獻(xiàn)、增強(qiáng)計算工具的能力,或豐富研究對象的表征維度。當(dāng)前的AI for Science在這些方面已經(jīng)取得了可觀的進(jìn)展,在單點上實現(xiàn)了工具層面的革新。
03
但AI的價值遠(yuǎn)不能止步于此。當(dāng)我們將整個科研過程視為研究者、工具和對象三者之間的動態(tài)系統(tǒng)而非孤立節(jié)點時,人工智能將發(fā)揮更大價值,促成三者之間相互作用、協(xié)同演進(jìn)、螺旋式上升的新型科研范式大變革,進(jìn)而創(chuàng)造出真正革命性的工具。
具體而言,人工智能可以幫助研究者在多個方面獲得提升:在研究者層面,可以幫助研究者更好地產(chǎn)生跨領(lǐng)域的想法,幫助判斷哪些科研假設(shè)更具價值;在研究工具層面,能夠自主構(gòu)建新工具,或?qū)崿F(xiàn)已有工具的創(chuàng)新性組合,完成“組合爆炸”;在研究對象層面,可以實現(xiàn)高度泛化、無損壓縮和體量龐大的數(shù)據(jù)獲取。一個關(guān)鍵問題在于,研究者對研究對象的表征往往受限于自身的認(rèn)知水平,很多潛在有價值的信息由于存儲或帶寬限制而被舍棄。在人工智能的加持下,研究者就可以更全面、更交叉地審視研究對象,這種深入理解又會促使研究工具的改進(jìn),進(jìn)而提升研究者的認(rèn)知水平;認(rèn)知提升后,研究者就能提出更優(yōu)質(zhì)的科學(xué)問題和工具組合,從而形成良性迭代循環(huán)。這正是AI for Science的最大機(jī)遇所在——不在于單點突破,而在于推動整個科研范式的系統(tǒng)性變革。
整個變革過程可以分為三個層次:首先是AI for Data,即對研究對象的表征;其次是AI for Computation,即對計算范式的革新;最后是AI for Innovator,即對研究者能力的提升。這三個層次最終將融合形成一個完整的閉環(huán)系統(tǒng)。以下為幾個例子:
第一個例子是突破對研究對象的理解。我們在上海人工智能實驗室開發(fā)了一個基于注意力機(jī)制的大氣數(shù)據(jù)表征模型,該模型能夠捕獲多維特征,同時保持線性計算復(fù)雜度。通過無損數(shù)據(jù)壓縮,可以在更大規(guī)模上研究氣象變化。這種方法具有很高的普適性,已成功應(yīng)用于神經(jīng)科學(xué)和生物學(xué)等領(lǐng)域,獲取的數(shù)據(jù)在廣度和深度上相比傳統(tǒng)方法提高2-3個數(shù)量級,使得許多以往被忽視的現(xiàn)象得以顯現(xiàn)。后續(xù)還有很多工作,例如探索如何更低成本地獲取高質(zhì)量數(shù)據(jù)。
第二個例子是推動計算范式的革新。在氣象建模中采用多模態(tài)模型進(jìn)行表征,計算精度相比傳統(tǒng)基于物理方程的方法顯著提升。以一次臺風(fēng)登陸上海的過程為例,黃線是實際觀測路徑,藍(lán)色虛線是歐洲氣象中心基于物理模型的預(yù)測路徑,而粉線是我們大模型的預(yù)測路徑。結(jié)果顯示,人工智能模型在臺風(fēng)登陸后的短期預(yù)報精度上比物理模型提高10倍以上,在中長期預(yù)報方面也有突破性進(jìn)展。
我們主要在清華完成的蛋白質(zhì)多組學(xué)數(shù)據(jù)研究PROTEUS,則進(jìn)一步展示了人工智能如何融合研究對象、研究工具和研究者,并最終對科學(xué)研究形成循環(huán)推動作用。該研究的數(shù)據(jù)來源非常廣泛,遠(yuǎn)超單個科學(xué)家所能掌握的范圍;而且除了現(xiàn)有的組學(xué)數(shù)據(jù)外,全球范圍內(nèi)還在持續(xù)產(chǎn)生大量新數(shù)據(jù)。通過融合這些數(shù)據(jù),并結(jié)合對數(shù)百萬篇文獻(xiàn)的理解,可以產(chǎn)生眾多有價值的科研方向,包括基礎(chǔ)研究領(lǐng)域的疾病機(jī)制解析、臨床應(yīng)用中的治療靶點篩選等。面對如此繁雜的研究對象和海量分散的信息,很少有科學(xué)家能夠全面掌握并提出最優(yōu)的科學(xué)假設(shè)。傳統(tǒng)科研模式下,科學(xué)家通常在局部數(shù)據(jù)和有限認(rèn)知基礎(chǔ)上提出假設(shè),而這些假設(shè)是否滿足全局最優(yōu)則無從得知。
引入AI的研究方法完全顛覆了這一模式:首先將多組學(xué)數(shù)據(jù)視為AI for Innovator(研究對象)的擴(kuò)展,采用多種方法整合這些數(shù)據(jù);然后通過對現(xiàn)有文獻(xiàn)和新發(fā)表成果的分析,自動識別數(shù)據(jù)中呈現(xiàn)的現(xiàn)象;根據(jù)現(xiàn)象分類,系統(tǒng)自動調(diào)用多種生物信息學(xué)工具進(jìn)行組合分析,初步提出新的研究方向;經(jīng)過深度推理后,自動生成科學(xué)假設(shè);最后將這些假設(shè)呈現(xiàn)給科學(xué)家,通過人機(jī)協(xié)作方式評估其科學(xué)價值。使用以上方法在10個不同數(shù)據(jù)集上生成360多條科學(xué)假設(shè)后,將這些假設(shè)與人類科學(xué)家提出的假設(shè)進(jìn)行匿名對比評估,結(jié)果顯示,人工智能生成的假設(shè)在新穎性和相關(guān)性方面顯著優(yōu)于人類專家的假設(shè)。
需要強(qiáng)調(diào)的是,上述對比關(guān)注的是質(zhì)量而非數(shù)量,因為在數(shù)量上AI毫無疑問具有絕對優(yōu)勢。這一突破性進(jìn)展促使我們重新思考科學(xué)假設(shè)的生成方式,包括如何采集新數(shù)據(jù)或從新角度觀察現(xiàn)有數(shù)據(jù)。在這個過程中,AI系統(tǒng)獲得了一個新任務(wù):對已有觀察結(jié)果提出新的數(shù)據(jù)解析,并在此過程中構(gòu)建新工具,然后對數(shù)據(jù)和工具再次提出新假設(shè);基于這些新數(shù)據(jù)和工具,又將開啟下一輪研究迭代。目前我們正在進(jìn)行第二階段工作:根據(jù)AI生成的假設(shè)設(shè)計新的觀測方案和工具,開展驗證實驗——這意味著研究對象、研究工具和研究者三者之間已經(jīng)形成了互相賦能,良性螺旋式上升的迭代循環(huán)。
以下的研究框架圖可以更好地說明這一機(jī)制:研究者的主要作用是提供基礎(chǔ)研究方向,將研究方向作為命題輸入AI系統(tǒng)。AI系統(tǒng)會對研究對象、現(xiàn)有數(shù)據(jù)和文獻(xiàn)進(jìn)行全面分析,提出新的研究問題和對象。在傳統(tǒng)科研中,不同科學(xué)文獻(xiàn)之間往往缺乏聯(lián)系,而AI能夠發(fā)現(xiàn)這些潛在關(guān)聯(lián),這些新關(guān)聯(lián)就是創(chuàng)新的科學(xué)假設(shè)。AI系統(tǒng)會調(diào)用合適的工具對假設(shè)進(jìn)行初步驗證,然后將結(jié)果反饋給人類研究者,由他們決定后續(xù)研究方向、假設(shè)驗證和新實驗設(shè)計。目前這一循環(huán)的基礎(chǔ)版本已經(jīng)實現(xiàn),隨著各個環(huán)節(jié)的不斷完善,將會進(jìn)一步顯現(xiàn)更大的價值。
04
最后總結(jié)一下核心觀點:第一,For Science需要新的AI;第二,科學(xué)研究需要人工智能在包含研究者、研究工具、研究對象的全要素總和中發(fā)揮系統(tǒng)性作用,而非僅限于單點突破。如果AI僅做單點突破,人與人之間的交流成本還會持續(xù)提升;只有讓AI發(fā)揮系統(tǒng)性作用,才能有效降低交流成本。由于信息吞吐率的本質(zhì)差異,人與人之間的交流成本始終高于AI與AI、模型與數(shù)據(jù),因此迫切需要促進(jìn)AI內(nèi)部的高效信息交互,而非單純提升人際交流效率。第三,一旦完成以上兩步,AI將從“工具的革命”過渡到“革命的工具”。
AI for Science目前仍處于“工具的革命”階段,就像從計算器到計算機(jī)程序,無論是Basic語言、Python語言還是現(xiàn)在的自然語言,都是在工具上進(jìn)步。但是科學(xué)革命需要“革命的工具”。為了推動AI for Science的發(fā)展,上海人工智能實驗室創(chuàng)新性地啟動了“AI4S攀登者行動計劃”,打造一個科學(xué)工作者和AI工作者雙向奔赴、協(xié)同攻關(guān)的新模式。該計劃在今年春節(jié)前發(fā)布,目前已收到來自全世界500多個不同科研機(jī)構(gòu)的申請,顯示大家對AI for Science領(lǐng)域寄予厚望。
該計劃除了強(qiáng)調(diào)AI和Science的雙向奔赴之外,也在組織模式上進(jìn)行了多處創(chuàng)新:一是目標(biāo)導(dǎo)向,聚焦重大科學(xué)問題攻關(guān),要求大規(guī)模協(xié)同創(chuàng)新;二是緊密組織地進(jìn)行科研,要求AI和Science的研究人員必須在一起,組成一個“初創(chuàng)”團(tuán)隊;三是開放,因為這類研究課題往往沒有標(biāo)準(zhǔn)答案和既定流程,需要學(xué)術(shù)機(jī)構(gòu)的自由探索氛圍。該計劃希望通過融合企業(yè)、創(chuàng)業(yè)團(tuán)隊和學(xué)術(shù)機(jī)構(gòu)的優(yōu)勢,形成獨特的組織形式。
按照科技部的指導(dǎo)方針,設(shè)立以下幾個重點攻關(guān)方向:一是聚焦重大科學(xué)問題的創(chuàng)新突破;二是沉淀共性關(guān)鍵技術(shù)問題,如提升AI for Science的系統(tǒng)性能力;三是打造產(chǎn)業(yè)標(biāo)桿,將AI for Science的價值最終體現(xiàn)在新材料、新工藝等實際應(yīng)用上,產(chǎn)生經(jīng)濟(jì)效益和社會效益。
目前第二批申請已經(jīng)啟動,采取滾動支持機(jī)制,歡迎感興趣的科研團(tuán)隊積極參與。
最后給讀者留下幾個值得深思的問題:第一,大語言模型能解決所有科學(xué)問題嗎?如果不能,我們怎么提升它的能力?第二,當(dāng)前的科研評價體系是對科學(xué)家進(jìn)行評估,AI與人類科學(xué)家的價值是否應(yīng)該有差異化的評估體系?第三,包括推理、運行時計算等在內(nèi)的Scaling Law能否帶來革命的工具?是否還有新的技術(shù)路線?
以上就是今天的分享,謝謝大家。
(作者簡介:周伯文,上海人工智能實驗室主任、首席科學(xué)家,清華大學(xué)惠妍講席教授、電子工程系長聘教授。)