壹、目的

順應近年人工智慧（Artificial Intelligence, AI）迅速發展趨勢，AI 技術日漸成熟與廣泛應用，已於公私部門帶來變革性的創新，並正重塑各領域的運作模式與服務型態。面對此波科技革新浪潮，國際間亦普遍認為應就 AI 技術研發、應用倫理、資料品質各面向發展需求挹注資源，以建構良善的 AI 生態系。

訓練資料是 AI 模型發展的重要元素，其品質優劣將直接影響模型的效能與應用可靠性。其品質優劣將直接影響模型效能與應用可靠性。不同類型的 AI 模型對資料需求各有差異，例如：監督式學習需仰賴標註一致且具代表性的資料，非監督式學習則依賴資料間的結構特徵，多模態模型則須確保跨語言、影像、聲音等異質資料間的對應與對齊。因此，若缺少關鍵的詮釋資料（metadata），可能導致模型訓練失準、偏差擴大或再利用受限。例如，缺乏時間與地理資訊的資料集，將影響模型對時序變化或區域差異的判斷；缺乏資料來源與標註方式的說明，則難以評估其適用性與可信度。強化措施可能包括：透過再加工補充外部來源資料、進行資料標註一致性檢核，或於應用端建立偏差調整機制。

資料之可用性與再利用價值，除仰賴於高品質、結構化與可機器處理（machine-actionable）等特性，完善的詮釋資料（metadata）亦不可或缺，不僅有助於資料提供方管理資料資源，更能協助資料使用者正確理解資料內容與使用限制。隨著 AI 應用需求日益提升，國際間也持續展開資料適用性討論，例如歐盟提出 FAIR 原則（Findable, Accessible, Interoperable, Reusable），聯合國教科文組織（UNESCO）與經濟合作與發展組織（OECD）亦強調資料在負責任 AI 發展中的重要角色，倡議資料應具備語意可解釋性與跨域整合能力，以支援 AI 模型訓練與應用。

依據近期國際趨勢見解，世界銀行提出「AI-ready development data」概念，指出資料應能被搜尋、理解、取得與使用，並建立於既有的開放資料及 FAIR 原則之上，同時強調需具備完善的 metadata、治理機制與技術規格，才能支援 AI 系統與使用者的可信互動（World Bank, 2023）。此外，美國商務部於「Generative AI and Open Data: Guidelines and Best Practices」文件中，也提出資料發布應兼顧 AI 系統自動擷取與理解的實務需求，以確保政府資料能成為可靠的 AI 訓練基礎（U.S. Department of Commerce, 2025）。然而，目前國際間對於 AI 訓練資料整備程度尚無具體的衡量指標與技術規範，因此建立明確的詮釋資料框架與評估指標，對於促進 AI 訓練資料使用，具有關鍵意義。

為促進政府資料轉化符合 AI 應用需求，特參考國際間針對資料品質構面、治理趨勢與相關實務經驗，研擬「AI-Ready Data 詮釋資料框架指標指引」（下稱本指引），以評估資料之機器可讀性 (Machine Readability) 與跨資料集整合程度（Degree of Cross-Dataset Integration）。資料本身具有中立性，其應用風險並非源於資料本體，而是來自特定應用目的下的使用與治理措施，因此，資料使用者應從 AI 應用的生命週期角度審慎評估資料來源、收集目的、結構特性與潛在偏誤，採適當運用。

本指引係為通用性之詮釋資料衡量架構，現階段主要針對結構化資料類型進行設計與描述，期建立標準化的評估準則，促進跨機關、跨領域 AI 訓練資料利用效益。然而各應用領域在資料類型、應用場景等具有相當之差異性，爰各領域主管機關得參考本指引為基礎，進一步發展具領域特性之詮釋資料框架指標，以強化指引落地之可行性。