訪清華孫茂松:中國“強音”推大模型開源,全球大模型文化正在扭轉
中新網北京4月30日電 (記者 夏賓)清華大學人工智能研究院常務副院長、歐洲科學院外籍院士孫茂松近日在北京接受中新網記者專訪時稱,中國科技公司在大模型領域掀起的開源浪潮向全球發出了中國“強音”,其技術在獲得國際認可的同時,悄然扭轉了全球大模型文化。
中國大模型領域已然掀起開源熱潮。孫茂松表示,DeepSeek的出現以及通義千問的系列開源產品極大推動了國際大模型的開源路線,這對突破技術壟斷,促進技術平權,提升人工智能的普惠性,無疑具有十分重要的作用。
但孫茂松也直言,長期以來,在國際學術界,英語及以其為載體的文化作為強勢語言和文化在國際上占據主導地位,中文內容常常處于相對弱勢。在同等條件下,國際上更習慣使用西方開源的基座模型,這種“文化差異”造成的環境挑戰,需要付出加倍的技術努力才能克服。
不過上述局面在過去一年發生了顯著改變。“近年來國際開源界比較知名的是LLaMA(Meta公司旗下人工智能模型),但是從去年開始,我覺得千問已經反超了。”
他進一步說,目前從學術論文的角度來看,國際上很多研究都是基于千問進行。在同樣尺寸的模型比較中,有些效果在LLaMA上可能無法實現,但在阿里千問上卻可以做出來,這也充分說明千問的小模型性能更優。
從這個典型例子來看,孫茂松認為,這意味著中國的大模型“文化”在國際上得到認可,這一點表面看上去似乎“波瀾不驚”,但其實非常難能可貴。
最新消息顯示,4月29日凌晨,新一代通義千問模型Qwen3(千問3)宣布開源,總共涉及8款不同尺寸的千問3模型。據悉,阿里通義已開源200余個模型,全球下載量超3億次,其衍生模型數超10萬個,超越美國Llama,成為全球第一開源模型。
以DeepSeek、Qwen為代表的中國開源模型實現先進模型的參數權重、推理邏輯和工具鏈條的全開源,正在打開人工智能商用的新局面。
“盡管DeepSeek總體上是一個‘從1到2’的創新,但在人工智能反饋強化學習方面是開源大模型中走得最遠的,將人類反饋變成了人工智能反饋。”談到DeepSeek時,孫茂松說。
孫茂松特別強調了小模型的重要價值。從應用的角度,小模型可降低成本,拓展應用的普及度;從研究的角度,小模型可有助于高校科研機構應對資源約束帶來的研究挑戰,這些都有很強的必要性。
在他看來,大模型做得越好,就能衍生出越優秀的小模型;而在小尺度模型上的深入研究,也能為大模型的發展提供重要啟發。
“基礎模型必須要有靈性,要有慧根。”孫茂松說,就好比一個人比較聰穎、機靈,稍微點撥兩句就能領悟。基礎模型有靈性,才能比較容易達至“孺子可教也”的成效,不管是進行更高層次的學習還是應用都會更為順暢。
在科學計算等前沿領域,AI for Science(人工智能驅動的科學研究)正成為重要突破口。“這是一個對基礎科學研究乃至顛覆性創新技術發展具有深刻意義的方向,因為大模型對復雜系統的處理能力遠超傳統方法。”
孫茂松認為,AI for Science的基本定位是啟發人類,作為人類科研工作者的重要補充,或者彌補人類思考的闕如,或者成百倍、成千倍地提高效率。
對于未來發展,孫茂松認為,中國AI領域將在更高層次上面臨能力上的重要考驗。“當你追趕到并駕齊驅的位置時,下一步該往哪里走?這呼喚我們在基礎研究方面提出更深刻的學術思想和更具根本性的解決方案。”他強調,中國必須在保持關鍵技術創新的同時,更加注重“從0到1”的原創性思想的培育和激發。