陸、核心架構總覽
AI-Ready Data 詮釋資料框架指標涵蓋 5 大主軸構面、14 個面向指標,旨在強化資料結構的邏輯性與實務應用的可行性。本指引各構面所列衡量指標,依其檢核方式區分為「量化」及「量化/質性」2 類:
量化
指標可透過數值化方式直接檢測,例如空值數量、更新頻率、欄位完整度等,適合以程式化工具進行自動化檢核。
量化/質性
指標同時具備可量化與需質性審查的面向,例如可信任性構面下隱私及資料保護、偏差預防、透明度等 3 項指標,可透過量化檢核相關內容是否存在,但仍需檢視質性內容以確認完整性與可理解性,通常需結合自動化檢核與人工審查並行。
本指引另於各構面中指標分類採資料品質相關性分級概念,其係用以區分衡量指標對於資料品質與 AI 應用之影響程度,分為「低」、「中」、「高」3 類:
低
對資料品質之影響相對有限,若未明確標示,對整體資料完整性與可理解性影響不大,主要屬輔助性。
中
對資料品質具有中度影響,若能明確標示,將有助於增進資料的可判讀性與可用性,降低使用成本並改善應用效益。
高
對資料品質具關鍵影響,若能明確標示,對於確保資料的完整性、可信度與再利用價值具關鍵作用,為資料品質判斷之核心依據。
上述分類為通用性概念,後續各領域主管機關或資料提供方可依實際需求,與資料使用方共同協作調整分類或評級階層之數量、定義與細緻度,例如擴充為五級(Level 1 至 Level 5),以呈現更細緻的影響程度區分,俾利實務應用,以作為評估資料集是否符合 AI 應用需求的重要依據,其指引架構詳細說明如下:
一、可查找性(Findability)構面-資料是否易於搜尋識別
發展人工智慧系統與服務的首要步驟,是能有效查找可用於訓練、驗證與測試的資料集。可查找性係指提升資料被使用者及電腦系統搜尋、識別與定位的機會,可透過建置資料目錄、充實詮釋資料內容等措施逐步落實。
在此基礎上,資料本體及其詮釋資料若能具備良好的可搜尋性,將更易於使用者與電腦系統發現與存取。其中,具備機器可讀性的詮釋資料在自動化資料探索與整合過程中扮演關鍵角色,能有效降低搜尋成本,提升資料重複利用的可能性,進而擴大資料價值。以下指標可作為評估資料集「可查找性」的重要依據。其構面下包含完整性(Completeness)、可發現性(Discoverability)等 2 個面向指標,其衡量指標及驗證方式說明如下:
(一) 完整性(Completeness)
完整性是指資料屬性欄位應盡量避免空值或缺漏,以確保資料在應用過程中具備足夠的資訊基礎。在詮釋資料完整性層面,可能出現該值不存在、確實存在卻未被記錄或不知該值是否存在等空值情形,可透過自動檢測確認資料的完整性,並以總值數及完整值的比例表示資料的完整性。
完整性要求充分填寫各項描述欄位,避免留白或不具一致性的資料正規化,確保使用者或系統能準確理解資料的內容、來源與結構,並應視資料內容適當提供資料集大小,例如資料筆數、檔案數量、欄位數量等。高完整性的資料與詮釋資訊,有助於提升資料的可用性、準確性與在 AI 應用中的訓練價值。
(二) 可發現性(Discoverability)
可發現性是指能被使用者及電腦系統有效發現。其關鍵在於詮釋資料的描述品質,如描述越清晰且具結構性,資料就越容易被定位與識別,特別是運用標準化控制詞彙、關鍵字及一致命名規則,不僅可提升搜尋準確度,也有助於機器自動處理與比對,進而提升資料在跨系統與跨領域環境中的可查找性。
| 構面 | 指標 | 衡量指標 Metrics | 質性/量化 | 計算方式 | 資料品質相關性 |
|---|---|---|---|---|---|
| 可查找性 Findability |
完整性 Completeness |
資料集中資料為空值的數量 | 量化 | 百分比 | 中 |
| 詮釋資料欄位未填的數量 | 量化 | 百分比 | 中 | ||
| 在詮釋資料填寫資料集大小 | 量化/質性 | 二元值 | 低 | ||
| 可發現性 Discoverability |
詮釋資料提供資料集名稱/標題 | 量化/質性 | 二元值 | 低 | |
| 詮釋資料填寫關鍵字欄位 | 量化 | 二元值 | 中 | ||
| 詮釋資料填寫分類欄位 | 量化 | 二元值 | 中 | ||
| 詮釋資料填寫資料收集時間區間資訊 | 量化 | 二元值 | 中 | ||
| 詮釋資料填寫空間資訊 | 量化 | 二元值 | 中 |
二、可近用性(Accessibility)構面-資料是否可穩定存取近用
當使用者成功查找到所需的資料後,接下來的關鍵就是能否順利取得並使用這些資料。可近用性意指降低使用者存取資料之難度,通常可透過採用開放、免費之存取機制與提供明確存取規範等措施加以推動。
在此基礎上,資料若能具備清楚的存取方式與穩定的下載管道,並搭配適當的認證與授權機制,將能有效降低使用者與系統存取資料的難度。可近用性直接影響 AI 系統獲取資料的效率與應用的可行性,是資料應用流程中的核心環節,以下指標可用於評估資料集在可近用性方面的表現,其構面包含可得性(Availability)1 個面向指標,其衡量指標及驗證方式說明如下:
(一) 可得性(Availability)
可得性(Availability)指的是使用者或電腦代理程式(如 API 工具等)是否能在無障礙、無錯誤或無不當限制的情況下,順利存取資料集內容。高可得性代表資料可穩定且持續地被查詢與下載,並附有清楚明確的授權條件與存取規範,進而有助於提升資料的整體可用性與應用效率。
| 構面 | 指標 | 衡量指標 Metrics | 質性/量化 | 計算方式 | 資料品質相關性 |
|---|---|---|---|---|---|
| 可近用性 Accessibility |
可得性 Availability |
提供資料下載網址 | 量化 | 二元值 | 高 |
| 資料下載網址可近用 | 量化 | 二元值 | 高 | ||
| 無需註冊即可下載資料 | 量化 | 二元值 | 中 | ||
| 詮釋資料提供使用授權資訊 | 量化 | 二元值 | 高 | ||
| 詮釋資料以受控制詞彙提供授權資訊 | 量化 | 二元值 | 中 | ||
| 具備應用程式介面(API)或網路服務(Web Service)近用資料集 | 量化 | 二元值 | 中 | ||
| 提供近用資料集之 API 說明文件 | 量化 | 二元值 | 中 |
三、互通性(Interoperability)構面-資料是否利於系統整合
在實際應用中,資料往往需與其他資料集進行整合,以順利介接至各類分析、儲存與處理的系統或工作流程。互通性意指便利資料與其他資料、應用或工作流程的整合分析、儲存與處理,通常可透過採用通用格式、標準化結構等措施加以推動。
在此基礎上,以下指標可作為評估資料集互通性的依據,其構面包含合規性(Conformity/compliance)、機器可讀性/可處理性(Machine readability/processability)、開放性(Openness)等 3 個面向指標,其衡量指標及驗證方式說明如下:
(一) 合規性(Conformity/compliance)
合規性是指資料及其詮釋資料是否依循公認的標準規範,涵蓋資料的獲取、發布、描述及格式定義等層面。合規的資料應符合相關技術與語意標準,例如資料中的日期欄位應使用 ISO 8601 格式,詮釋資料則應採用如 DCAT 等通用描述架構,以提升資料的一致性與可交換性,並提供資料字元編碼資訊,可透過自動化檢測機制查核資料是否符合標準,並以符合項目數占檢查項目總數的比例(百分比)檢視其合規程度。
資料若具備高合規性,不僅有助於確保跨系統或跨平臺環境中的資料正確解析與整合,進一步提升資料可信度,屬於推動資料標準化與國際接軌的核心基礎。
(二) 機器可讀性/可處理性(Machine readability/Processability)
機器可讀性/可處理性是指資料集及其詮釋資料是否具備良好的結構與格式,足以被自動化程序正確解析、理解與處理。具高機器可讀性之資料,應具備明確欄位定義及一致的資料型態,並搭配結構化的詮釋資料,使資料能無需人工介入即可被各類系統或演算法直接使用。
此一特性是實現 AI 模型訓練、資料交換與流程自動化的基礎條件。
(三) 開放性(Openness)
開放性指資料宜以非專屬格式(如 CSV、JSON、XML 等開放格式)提供,以利資料使用方適當存取應用,並得視實際應用需求提供壓縮檔案,以提升取用效率。高開放性資料有助於降低使用門檻,促進資料流通與創新應用。
| 構面 | 指標 | 衡量指標 Metrics | 質性/量化 | 計算方式 | 資料品質相關性 |
|---|---|---|---|---|---|
| 互通性 Interoperability |
合規性 Conformity/Compliance |
資料/詮釋資料的日期格式符合規範 | 量化 | 二元值/百分比 | 中 |
| 資料/詮釋資料的 EMAIL 格式符合規範 | 量化 | 二元值/百分比 | 中 | ||
| 資料字元編碼符合規範 | 量化 | 二元值/百分比 | 中 | ||
| 機器可讀性/可處理性 Machine readability/Processability |
檔案格式與媒體類型的可處理性 | 量化 | 二元值 | 高 | |
| 開放性 Openness |
檔案格式的開放性與廣泛支援程度 | 量化 | 二元值 | 高 |
四、再利用性(Reusability)構面-資料是否具持續應用價值
AI-Ready 資料集的核心目標之一,是使資料能在各類人工智慧系統與服務中被重複使用、靈活應用與有效整合。再利用性意指促進資料在不同情境或不同目的下的利用,通常可透過採用明確的授權條款、詳細記錄資料來源與使用限制等措施加以推動。
在此基礎上,若資料能具備清楚、完整且一致的描述,即可於不同平台、工具與應用情境下順利被複製、轉換或組合使用。高度可再使用的資料不僅可支援多元 AI 應用場景,也有助於模型的持續優化、跨任務應用以及知識的累積與延伸。
以下指標可用於評估資料集在再利用性方面的表現,其構面包含及時性(Timeliness)、一致性(Consistency)、相關性(Relevance)、可理解性(Understandability)、可信度(Credibility)等 5 個面向指標,其衡量指標及驗證方式說明如下:
(一) 及時性(Timeliness)
及時性指資料集本身及其詮釋資料是否保持更新,並能應對的實務應用需求,避免使用者基於過時資訊進行分析或決策。具備良好及時性的資料,有助於提升 AI 模型的準確性與實用性,特別是在需要反映及時狀態的應用情境中更為關鍵。
(二) 一致性(Consistency)
一致性指的是資料與詮釋資料在內容與結構上宜注意保持邏輯一致,避免出現任何相互矛盾的資訊,常見的不一致情況包含資料集內出現重複或衝突的紀錄、詮釋資料中存在多個彼此矛盾的授權聲明,或欄位如「修改日期」早於「建立日期」等邏輯錯誤,資料提供方宜適度採用自動化資料邏輯檢核機制,分析各欄位內是否僅使用控制詞彙表中包含的允許值、是否有重複資料,並依此計算出含非允許值及重複數值之百分比,並由人工輔以驗證是否具一致性。資料的一致性是確保其可信度與可用性的基礎,對於 AI 模型訓練與應用的穩定性至關重要。
(三) 相關性(Relevance)
相關性係指資料內容與特定應用目的或任務需求之間的實質關聯程度。高相關性的資料能有效支援特定 AI 任務的目標,例如模型訓練、驗證或部署階段所需之資料需求。依據 OECD 所提出之 AI 系統生命週期治理框架,資料使用者應從系統開發與運作的全生命週期角度,審慎評估資料的來源、收集目的、結構特性與潛在偏誤,確保資料內容不僅符合應用語境,亦能避免在特定階段引入不必要的風險或誤導。例如,在模型設計初期應評估資料是否能代表欲解決的問題情境,在訓練與測試階段則須確認資料是否具備足夠的細緻度與標註品質,以支持預期的技術表現與公平性要求。資料筆數與欄位數確實需視應用脈絡而定,單純數量本身不必然代表品質,惟資料應具備足以支撐任務的適量資訊,另非僅以數量作為品質評估,資料之相關性,應涵蓋資料集內容與應用目的之間的合理對應,就應用情境、治理責任與資料本身特性進行綜合判斷。
(四) 可理解性(Understandability)
可理解性指資料及其詮釋資料對使用者而言是否清晰、直觀且易於理解。若資料的結構、內容與說明具備良好的表達與邏輯性,使用者將能迅速掌握資料的意涵與用途,進而提升資料的可用性與應用效率。
資料提供方可透過檢視資料集的標題、欄位命名、關鍵字設定及說明文件的完整性與表達品質,強化資料的可理解性。良好的可理解性有助於使用者快速上手,降低誤用風險,促進資料的流通與再利用。
(五) 可信度(Credibility)
可信度指的是資料是否提供使用者判斷資料內容是否真實且可靠的程度。當資料來自明確的來源、具備清楚的背景說明與標註,更容易取得使用者的信任。可信的資料不僅有助於提高 AI 模型訓練的品質,也能強化資料驅動決策的信賴基礎。
為提升可信度,資料提供方宜在詮釋資料中明確揭示資料發布單位、聯繫窗口、資料集擁有者及其職責,並標示資料來源與更新頻率,強化使用者對資料品質與責任歸屬的理解。
| 構面 | 指標 | 衡量指標 Metrics | 質性/量化 | 計算方式 | 資料品質相關性 |
|---|---|---|---|---|---|
| 再利用性 Reusability |
及時性 Timeliness |
詮釋資料提供更新頻率 | 量化/質性 | 二元值 | 中 |
| 詮釋資料提供資料上架日期 | 量化/質性 | 二元值 | 中 | ||
| 詮釋資料提供資料最近修改日期 | 量化/質性 | 二元值 | 中 | ||
| 一致性 Consistency |
在資料/詮釋資料中非容許值的數量 | 量化 | 二元值/百分比 | 低 | |
| 不具重複資料 | 量化 | 二元值/百分比 | 低 | ||
| 資料採用一致的計量單位、資料類型和參數名稱 | 量化/質性 | 二元值 | 高 | ||
| 相關性 Relevance |
資料筆數 | 量化/質性 | 計數/二元值 | 高 | |
| 資料欄位 | 量化/質性 | 計數/二元值 | 高 | ||
| 可理解性 Understandability |
詮釋資料提供資料集背景目的說明 | 量化/質性 | 二元值 | 低 | |
| 詮釋資料提供資料集的資料字典/代碼手冊 | 量化/質性 | 二元值 | 低 | ||
| 可信度 Credibility |
詮釋資料提供聯絡窗口 | 量化/質性 | 二元值 | 低 | |
| 詮釋資料提供資料集發佈者 | 量化/質性 | 二元值 | 低 | ||
| 詮釋資料提供用戶回饋和建議的機制 | 量化 | 二元值 | 低 |
五、可信任性(Trustworthiness)構面-資料是否具備信賴基礎
人工智慧雖為多個領域帶來顯著效益,其快速發展亦伴隨若干社會關切,包括隱私侵犯與監控風險、行為操控、不透明性以及資料與演算法偏見等問題(Müller, 2023;United Nations System, 2022),根據 Gartner 研究與多項國際文獻的建議,在資料應用及 AI 模型開發過程中,資料的來源資訊、描述方式與結構透明度均可能影響結果的可解釋性與信任程度。
可信任性意指資料能在來源可靠、處理過程透明可追溯、並兼顧隱私保護與偏差預防等情形下得被使用者信賴,通常可透過揭示來源資訊、建立偏差揭露機制、強化資料透明度與責任歸屬等措施加以推動。在此基礎上,提升可信任性可協助資料使用者理解資料特性,評估其代表性與適用性,並依應用脈絡進行必要的判斷與調整。高度可信任的資料不僅能降低模型偏差與不當使用風險,也有助於提升 AI 系統的可解釋性與問責性,進而促進資料的負責任應用。
本指引在建構相關詮釋資料框架指標時,除聚焦技術與品質面向外,亦納入資料來源揭露與結構描述的要素,以協助資料使用者理解資料特性,審慎評估其代表性與適用性,並依應用脈絡進行必要判斷與調整,以強化資料應用的適切性與負責任的使用行為。本詮釋資料框架指標建議 AI-Ready 資料集宜涵蓋 1 份可信任性內容說明文件,說明資料在隱私、偏差及透明性等面向的處理與揭露情形,包含以下 3 個面向:
(一) 隱私及資料保護(Privacy and Data Protection)
說明是否涉及個人資料,是否依照個人資料保護法(以下簡稱個資法)及其子法或國際間通用資料保護規定(例如歐盟通用資料保護規則,General Data Protection Regulation,GDPR),落實相關保護機制與法規遵循措施。
(二) 偏差預防(Bias Prevention)
明確揭示資料集中涉及人口變項(如年齡、性別、地區、族群等)之資訊,協助使用者理解資料的代表性與潛在偏誤來源。此舉有助於在資料早期階段即揭露可能影響 AI 模型公平性與判斷結果的結構性問題。同時,建議資料使用者在發展 AI 系統或服務時,應審慎評估資料特性可能帶來的限制與風險,並積極進行偏差識別與緩解措施,降低資料偏差對模型預測結果的影響。
(三) 透明度(Transparency)
透明度係指資料集的收集、處理、發布過程是公開且可驗證的,高度透明的資料集能增加使用者的信任,並有助於 AI 系統的可解釋性和可問責性。資料提供方宜清楚說明資料的來源、收集方法、處理流程、更新頻率等資訊,同時建立資料使用追蹤機制,以確保資料的使用符合原始目的倫理與法規規範。
| 構面 | 指標 | 衡量指標 Metrics | 質性/量化 | 說明文件 |
|---|---|---|---|---|
| 可信任性 Trustworthiness |
隱私及資料保護 Privacy and Data Protection |
資料經過隱私保護程序之說明 | 量化/質性 | 因應人工智慧及資料分析技術的快速發展,建議資料提供方提供 1 份說明文件,針對資料集於隱私保護、偏差預防及透明度 3 個構面,提出相應的指標說明,以確保資料的合規使用並降低潛在風險。 |
| 偏差預防 Bias Prevention |
偏差預防說明(提供正確描述之資料集內容,包含時間範圍、區域、類型等,減少資料集可能存在的偏差) | 量化/質性 | ||
| 透明度 Transparency |
資料集透明度說明(提供資料的來源、收集方法、處理流程、更新頻率等資訊) | 量化/質性 |

