中國AI公司DeepSeek商標展示在手機上。路透社
中國新創公司DeepSeek推出的AI模型,號稱以極低的成本,訓練出可以和美國巨頭OpenAI匹敵的AI引擎。這件事情上週醞釀發酵後,在本週一(27日)造成了一波AI類股大屠殺。但是美國國防智庫蘭德公司的研究人員聯合撰文指出,看待DeepSeek衝擊,不應忽略八個背景要點,而誇大了DeepSeek造成的挑戰。
蘭德公司(RAND)專研AI政策的研究員海姆(Lennart Heim),與牛津大學研究AI政策與美中競爭關係的博士生黃思豪(Sihao Huang),上週六(25日)共同發表了「DeepSeek興起:新聞標題沒寫的事」文章。
晶片管制的時間還很短,有時間差文中指出,首先必須要注意到美國對AI晶片出口中國的實質性嚴格管制,其實只從2023年10月開始,實行至今還不到2年。現在就批評晶片管制無法影響中國能力為時過早。
他們指出,DeepSeek的訓練使用輝達H800晶片,該晶片是專為了遵守美國2022年10月最初實施的管控,而對中國市場設計的特規降級版。儘管H800的運算能力不如能在其他市場銷售的頂尖晶片H100,但是對於DeepSeek特定的運算工作負載而言,這些晶片的效能其實很接近頂級晶片。輝達之後為符合2023年新管控推出的H20晶片雖然訓練效能稍弱,但在部署使用時仍有顯著的算力。
在晶片管控的時間差之下,美國廠商目前投入巨資建置的運算中心,在未來仍可能進一步拉開距離,更加領先管控環境下的中國同行。拜登卸任前夕宣布的進一步晶片管控措施,使並非可信賴盟國、也不是禁運國家的絕大多數國家,每年可以採購的AI晶片配額等同於約5萬枚H100。在此情況下,中國想繞道其他國家間接搜購管制晶片,也將遭遇更大的難度。這些管控措施還沒有足夠的時間呈現出效果。
利用較低運算力、提高效率的AI訓練並非新事,美國與其他廠商也能效法DeepSeek的AI引擎強調是用較低的運算力、更便宜的成本訓練出來,這種爭取效率而非堆疊算力的作法並非新事。DeepSeek能走這條路,矽谷各廠也照樣可以跟進。
而且,在增進效率以降低AI訓練所需算力門檻的情況下,中國以外的更多中小型新創公司將可進入AI領域。如果DeepSeek引擎只用了2000枚H800訓練出來,不是2萬枚H800, 表示有大量的公司都可以投入AI競爭。
DeepSeek的時間點顯然是輿論戰考量,完全針對川普新政府而來去年12月DeepSeek已經發表DeepSeek V3,但是震撼各界的DeepSeek R1顯然是趁川普新政府上台的第一週發布,發表時間就在川普上任當天的1月20日。此舉顯然是一個公關政治操作,企圖摧毀美國新政府對於管控晶片技術的信心。這和華為在2023年8月趁美國商務部長雷蒙多訪問北京時,公布以「中國國產」7奈米製程晶片製作的新手機上市,是一模一樣的操作。
但是這樣的公關操作並不能掩蓋晶片管制對中國造成的結構性與技術性難題。
AI的布設仍舊需要大量算力文中指出,就算有了很優良的AI引擎,部署這個AI引擎,也就是說要讓大規模的用戶可以使用這個AI引擎,依舊需要非常大的算力。晶片管制在此仍舊掐住中國部署AI能力的要害。
根據業界的估計,AI公司通常必須耗費60%到80%的算力來部署AI服務。對中國持續的晶片管制,將限制中國的AI部署,拔高中國廠商部署AI的成本,系統性衝擊中國的AI生態。
DeepSeek的模式其實仰賴更多算力DeepSeek的AI引擎成功之處,在於它可以自行產生矯正資料自我訓練。這與OpenAI的o1引擎是同樣的作法。專家指出,這種模式下運作的AI引擎,部署時不但要耗費算力供應使用者的需求,也要額外耗費算力產出給自己的修正性資料。
文中的分析認為,DeepSeek R1的進展,應有很大一部分得力於先前大量算力產生的資料。DeepSeek據報導可能是率先在亞洲建構由1萬枚輝達A100構成的運算中心,並且據報營運了由5萬枚H800建構的運算中心。這些既有運算中心提供的先期資料,可能是讓DeepSeek R1宣稱可以只靠2000枚H800,就能訓練成功的關鍵。
因此,算力並非在DeepSeek模式下變得毫無用處,反而還仍舊是關鍵要角。對於高算力晶片的管制仍舊可以對中國AI發展形成壓力。
DeepSeek尚未通過超大規模的壓力測試目前DeepSeek已經成為非常熱門的AI引擎,但距離真正能夠通過大規模用戶的壓力測試,可能還有一段時間。
許多人可能還記得OpenAI的ChatGPT剛推出時伺服器被塞爆,必須對用戶限額使用的狀況。同樣的限制也適用在任何要部署AI的廠商身上,包括DeepSeek。DeepSeek在週一就宣稱遭遇「大規模網路攻擊」,限制用戶註冊。然而這真的是網路攻擊,還是DeepSeek的算力已經難以支撐這波熱潮吸引的用量?
需要多耗「四倍」算力仍舊箝制中國AI發展海姆的文章指出,DeepSeek的高層也公開坦承,中國與外國的算力差距,讓DeepSeek面對四倍的困難。
DeepSeek創辦人梁文鋒公開說:「訓練效率有差距。我們估計,國內(中國)最好的水準和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。另外資料效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練資料和算力,才能達到相同的效果。合起來就要多消耗四倍算力。」
要克服這樣的差距,中國的AI公司需要投入更多的算力,而不是更少的算力。晶片管制造成的「卡脖子」效果還是存在。
用開放式AI模型與非開放式模型做比較,會有錯判文中表示,DeepSeek引起轟動的一大原因,就是其AI模型是採取開源式的作法,內容技術公開讓各方使用與驗證。但是像OpenAI或者Anthropic的最先進AI模型,有一大部分都仍保密。單純拿DeepSeek的內容與美國許多仍保密中的AI模型做比較,以評估中美之間AI能力的進展,很有可能有大幅的偏差。
DeepSeek的開源模式對於其公關輿論的衝擊力也有很大的幫助,它的優勢可以一覽無遺,造成更大的輿論潮。
最終,海姆的分析有三個結論:第一,DeepSeek的確有實質性的重大進展,這點不能忽視。第二,儘管AI等技術將無法避免擴散,但是對於晶片、技術的出口管制,依舊可以形成壓力,並且提供寶貴的時間,讓民主國家陣營可以應對威脅陣營。第三,算力的影響力是多層次而非單一數據。訓練AI模型所需的門檻算力可能可以大幅降低,但是以國家規模來部署AI,所需的算力仍舊極為龐大。