
一群中國資訊工程學者在上周於論文上傳網站Arxiv發表一篇新的論文,〈SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users〉,引起AI研究者不小的震撼。簡單來說,這篇文章使用X(過去的Twitter)以及小紅書(作者群包含小紅書工程師)的一千萬個使用者過去的活動資料,使用它們的演算法(包含Llama、通義千問、以及Deepseek等),創造出一千萬個AI虛擬分身。
虛擬分身互動結果可與電話民調一拼高下
接著,他們讓這些虛擬分身互動,並接著要這些分身回答美國總統選舉會投給誰、美國經濟狀況好不好等傳統民調問題,最後比對真實世界的答案(各州選舉結果、經濟數據民調滿意度等)。結果表現十分良好,可與電話民調一拚高下。
這篇論文之所以特別,有幾個原因。這種創造虛擬AI分身的事情,過去就已經有許多理論或者科幻作品有在探討,但過去礙於算力不足、資訊量不夠大、模型不夠複雜等原因而成效不彰。而這幾年在晶片、AI模型、乃至於人類活動數位化(因為大家都上網分享所作所為)的因素,讓過去這些實務上的問題都解決了,因此現在有辦法創造出上千萬個虛擬分身,並讓這些虛擬分身互動,如同模擬一整個千萬人口的國家一樣。
除此之外,小紅書的資料是不開放的,且過去也被視為是一個完全非政治的空間。但是這篇文章有小紅書的工程師合寫,也直接使用小紅書的資料,代表著小紅書的資料也會被拿來使用。這些資料也會被拿來預測跟政治有關的事物,例如主觀的經濟評價。
廈門大學台灣研究院也用虛擬分身研究台灣
那麼,這篇研究論文跟台灣有什麼關係呢?原因很簡單:廈門大學台灣研究院正在對台灣做一樣的事情。
廈門大學台灣研究院自從2018年開始成立「两岸融合发展与国家统一政策模拟实验室」,下設有數具中心與計算中心,透過台灣的資料,使用電腦模擬的方式,預測兩岸統一的各種可能狀況。這個實驗室獲得中共專門控制與宣傳資訊的網信辦拜訪、黨委書記拜訪、統戰部拜訪、且至今仍持續更新與運作,網站上宣稱這個實驗室要「实现祖国完全统一的重大战略需求」。
根據這個中心2022年的對外招標文件,這中心的數據平台的工作就是系統性的收集台灣的相關資料,「通过对台湾的经贸、政治、军事、文化等领域“信息流”的收集、汇总、统计、分析,利用图形图像处理、计算机视觉等技术手段,对经贸、政治、军事、文化等方面进行可视化展示,形成对平台日常工作及未来研究发展的决策信息,为研究者提供基于数据的信息化技术支持。」其內容包括「台湾政治与政商部分内容,例如政治人物势力分布、政商关系等;台军形势内容,例如台湾军舰巡航信息展示,国防军事信息等;及两岸文化及交流部分等内容」。
在這樣外敵目標明確且技術提升的狀況下,台灣作為一個資訊透明開放的社會的弱點又再次被放大。台灣過去幾年在開放資料的成果有目共睹,但這樣的開放資料馬上就可以被持續更新的AI模型給拿來使用。
中國對台的研究成果會強化其統戰能力
無論是前述提到的政商關係(監察院的政治獻金資料庫),乃至於未來要預測選舉結果或策畫不同負面競選對各政黨候選人的影響(例如政大選研的學術民調)、乃至於社群網站上不同廣告投放或是地方社群風向經營的效果(例如提供資料給中國的Meta公司)、更別提中國能夠直接取得資料的抖音與小紅書(小紅書也已經在一開始被論文直接拿來使用了)。這些都讓中國可以在取得更多、更完善的台灣資料的情況下,針對全台灣人進行模擬,來規劃不同統戰策略、不同涉台策略、不同話術所造成的影響進行直接模擬。這無疑地強化了中國對台統戰的能力。
當然,以台灣作為一個民主自由的國家的角度來說,要把資料重新鎖起來也是不可能的。但是在資料使用追溯、資料禁止使用範圍、相關規範與罰則、與司法單位合作懲處非法使用或跨境使用等,應該是可以在開放與不開放之間能夠找到降低國安影響的立足點。
過去幾年推動AI時,黃仁勳曾提及主權AI的觀念,也就是每個主權國家要有自己的AI設施與模型,保護自己的文化。而面對統戰的台灣,也應建立主權資料的概念,對於重要且影響國安的資料,應該要盡量保護於國內自由使用、國外嚴格查核,相關保護措施也應隨著資料收集以及編譯方式來與時俱進。
作者為內華達大學拉斯維加斯分校政治系副教授。在台中一中被選進數學校隊,接著考取台大電機系後想當個科學家。在椰林繞了一圈後,覺得還是人類有趣多了,於是跟著數學一起投入研究政治,成了政治科學家。
- 當開放資料被拿來模擬整個國家 - 2025 年 4 月 24 日
- Threads對台灣政治的重要性已不容忽視 - 2025 年 4 月 10 日
- 國台辦公布台獨名單為哪樁?準備統一後的大清洗 - 2025 年 3 月 27 日