為建立在地AI訓練基礎,數位發展部發布「臺灣主權AI語料庫」測試版。首波釋出六億權杖之正體中文資料集,旨在確保AI模型對齊臺灣文化價值,現已開放學研產界申請。為建立在地AI訓練基礎,數位發展部發布「臺灣主權AI語料庫」測試版。首波釋出六億權杖之正體中文資料集,旨在確保AI模型對齊臺灣文化價值,現已開放學研產界申請。

台灣數位發展部推出台灣主權 AI 語料庫 首波釋出 6 億組 Token 規模正體中文資料

2025/12/25 13:23

數位發展部推出台灣主權 AI 語料庫 Beta 版,首波釋出6 億組 Token 的繁體中文資料,目標建立在地 AI 訓練基礎並對齊國際標準。

為了避免台灣開發的AI模型滿口「京片子」,或是缺乏在地文化認知,數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。

首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關,釋出逾2000筆資料集,總計約6億組Tokens規模的高品質正體中文數據,涵蓋文化藝術、地理、語言、醫療與交通等領域,即日起開放產學研界申請使用。

為什麼我們需要「主權AI」?

數發部次長侯宜秀表示,各國都在發展AI,真正的護城河不是算力 (因為GPU只要有錢就買得到),而是「資料」與「人才」。台灣獨有的文化、語言與價值觀,如果我們自己不做,沒有其他國家或科技巨頭會幫我們做。

資料創新司司長莊明芬舉了一個最經典的例子:「土豆」。 在中國的語境裡,土豆是「馬鈴薯」 (Potato);但在台灣,土豆指的是「落花生」 (Peanut)。如果用錯誤的資料餵養AI,訓練出來的模型就會給出錯誤的答案,甚至導致文化認知的錯亂。加強繁體、正體中文的比重,才能讓大型語言模型 (LLM) 真正理解台灣的政經文化與價值。

兩大類資料,申請要看「身分證」

目前上線的語料庫分為兩個部分:

• 開放資料 (Open Data):開放自由下載。

• 授權資料 (Restricted):僅供AI訓練使用,需申請審核。

為了確保數據不被濫用,外界若欲使用授權資料,必須透過自然人憑證或工商憑證確認身分,並且說明使用目的。數發部約需7個工作天進行審核,通過後才會提供授權帳號供下載,目前提供的檔案格式包含通用的PDF與JSON,符合國際共享資料的FAIR原則 (可查找、可取得、可互通、可再利用)。

解決最頭痛的「版權」問題:一次性授權

對於開發者來說,訓練AI最怕踩到著作權地雷。對此,數發部與經濟部智財局合作制定了專屬的授權條款。

採用「一次性授權」模式,在授權人同意下,讓提供的語料能合法用於AI訓練 (包含重製、改作、編輯等)。相對地,被授權人 (開發者)也有義務標示資料來源,同時產出的內容需標示為以AI生成,並且確保訓練成果不會與原語料「實質近似」,以保障原創者的市場價值。

分析觀點:資料是AI時代的石油,但「量」與「質」仍是挑戰

筆者認為,數發部推出主權AI語料庫,是台灣AI發展基礎建設中極為關鍵的一塊拼圖。

過去一年,我們看到許多基於Llama或GPT微調的繁中模型,雖然對話流暢,但在涉及台灣法律、歷史、原住民文化或在地用語時,往往還是會「露餡」。官方出面整合高品質、經人工審核的政府數據,確實能大幅提升國產模型的「純度」。

不過,6億組Tokens規模對於現代 LLM 的訓練量來說,其實還僅是九牛一毛 (動輒數兆組Tokens規模起跳)。未來的挑戰在於如何從「中央政府」擴散到「地方政府」,甚至「民間企業」。唯有讓更多私部門的數據 (如新聞媒體、出版社、學術機構)在合理的授權與分潤機制下願意加入,這個語料庫才能真正成為台灣AI的大腦,而不僅僅是政府法規的資料庫。

資料來源

  • https://mashdigi.com/the-department-of-data-science-and-technology-has-launched-the-beta-version-of-the-taiwan-sovereignty-ai-corpus-releasing-600-million-tokens-of-traditional-chinese-data-in-the-first-wave/
市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0.03853
$0.03853$0.03853
+3.40%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。