跳至主要內容

政府資料開放平臺

壹、目的

順應近年人工智慧(Artificial Intelligence, AI)迅速發展趨勢,AI 技術日漸成熟與廣泛應用,已於公私部門帶來變革性的創新,並正重塑各領域的運作模式與服務型態。面對此波科技革新浪潮,國際間亦普遍認為應就 AI 技術研發、應用倫理、資料品質各面向發展需求挹注資源,以建構良善的 AI 生態系。

訓練資料是 AI 模型發展的重要元素,其品質優劣將直接影響模型的效能與應用可靠性。其品質優劣將直接影響模型效能與應用可靠性。不同類型的 AI 模型對資料需求各有差異,例如:監督式學習需仰賴標註一致且具代表性的資料,非監督式學習則依賴資料間的結構特徵,多模態模型則須確保跨語言、影像、聲音等異質資料間的對應與對齊。因此,若缺少關鍵的詮釋資料(metadata),可能導致模型訓練失準、偏差擴大或再利用受限。例如,缺乏時間與地理資訊的資料集,將影響模型對時序變化或區域差異的判斷;缺乏資料來源與標註方式的說明,則難以評估其適用性與可信度。強化措施可能包括:透過再加工補充外部來源資料、進行資料標註一致性檢核,或於應用端建立偏差調整機制。

資料之可用性與再利用價值,除仰賴於高品質、結構化與可機器處理(machine-actionable)等特性,完善的詮釋資料(metadata)亦不可或缺,不僅有助於資料提供方管理資料資源,更能協助資料使用者正確理解資料內容與使用限制。隨著 AI 應用需求日益提升,國際間也持續展開資料適用性討論,例如歐盟提出 FAIR 原則(Findable, Accessible, Interoperable, Reusable),聯合國教科文組織(UNESCO)與經濟合作與發展組織(OECD)亦強調資料在負責任 AI 發展中的重要角色,倡議資料應具備語意可解釋性與跨域整合能力,以支援 AI 模型訓練與應用。

依據近期國際趨勢見解,世界銀行提出「AI-ready development data」概念,指出資料應能被搜尋、理解、取得與使用,並建立於既有的開放資料及 FAIR 原則之上,同時強調需具備完善的 metadata、治理機制與技術規格,才能支援 AI 系統與使用者的可信互動(World Bank, 2023)。此外,美國商務部於「Generative AI and Open Data: Guidelines and Best Practices」文件中,也提出資料發布應兼顧 AI 系統自動擷取與理解的實務需求,以確保政府資料能成為可靠的 AI 訓練基礎(U.S. Department of Commerce, 2025)。然而,目前國際間對於 AI 訓練資料整備程度尚無具體的衡量指標與技術規範,因此建立明確的詮釋資料框架與評估指標,對於促進 AI 訓練資料使用,具有關鍵意義。

為促進政府資料轉化符合 AI 應用需求,特參考國際間針對資料品質構面、治理趨勢與相關實務經驗,研擬「AI-Ready Data 詮釋資料框架指標指引」(下稱本指引),以評估資料之機器可讀性 (Machine Readability) 與跨資料集整合程度(Degree of Cross-Dataset Integration)。資料本身具有中立性,其應用風險並非源於資料本體,而是來自特定應用目的下的使用與治理措施,因此,資料使用者應從 AI 應用的生命週期角度審慎評估資料來源、收集目的、結構特性與潛在偏誤,採適當運用。

本指引係為通用性之詮釋資料衡量架構,現階段主要針對結構化資料類型進行設計與描述,期建立標準化的評估準則,促進跨機關、跨領域 AI 訓練資料利用效益。然而各應用領域在資料類型、應用場景等具有相當之差異性,爰各領域主管機關得參考本指引為基礎,進一步發展具領域特性之詮釋資料框架指標,以強化指引落地之可行性。