柒、評估流程與作業方式
為協助資料提供及使用雙方在資料釋出與利用過程中,初步瞭解其資料品質與結構特性是否具備支援 AI 應用之潛力,本節說明 AI-Ready Data 詮釋資料框架指標的評估流程與作業建議。內容涵蓋評估的啟用時機、資料預備要件、執行方法到成果彙整方式,提供一套可資參考之標準作業流程,供機關依實際需求採用與調整,作為資料品質管理與應用準備之輔助工具,進一步推動制度化作業與實務應用之銜接。資料提供方得依領域專業,使用衡量指標檢查表(如附錄)進行各構面下指標逐項評估,俾利落實追蹤資料優化補強歷程,AI-Ready Data 詮釋資料框架指標構面示意圖如下圖 1。
圖 1 AI-Ready Data 詮釋資料框架指標構面示意圖
一、使用時機
推動 AI-Ready Data 詮釋資料框架指標進行資料評估實務中,清楚界定「何時應進行評估」可導入作為內部流程的一環,避免資料釋出後再補救的效率損失與風險。建議針對以下 2 情境執行 AI-Ready Data 評估:
表 7 指標使用時機對照表
| 使用情境 | 目的 | 建議頻率 | 實例情境 |
|---|---|---|---|
| 資料上架預檢 | 確保符合 AI 應用基本門檻與品質規範 | 每次資料上架或更新 | 資料首次產出、重大內容調整後、例行資料統計 |
| 定期品質盤點 | 作為資料年度品質管理之依據 | 每年或每半年一次 | 年度資料盤點 |
二、資料收集與前處理要求
為提升資料的自動檢核效率,需在評估前完成基礎的資料標準化處理,以確保評估結果客觀且具代表性為重要前提。以下為各面向之處理建議:
表 8 資料品質處理建議表
| 資料面向 | 資料品質面向 | 處理建議說明 |
|---|---|---|
| 資料結構與格式 | 資料欄位 | 建立清楚命名原則、資料型別、單位一致、欄位定義文件(資料字典) |
| 編碼規範 | 使用國際通用之標準編碼(例如 UTF-8 編碼格式、日期使用 ISO 8601 格式等) | |
| 資料內容與語意 | 缺漏值 | 建立標示缺值(如 NA、null)之標準化處理規則 |
| 控制詞彙 | 採用控制詞彙(如 Chinese National Standards,CNS)、都柏林核心詮釋資料(Dublin Core Metadata Initiative,DCMI)或自建詞彙表控制描述語意 | |
| 資料機敏風險 | 隱私及資料保護 | 涉及個資資料應提供適當隱私保護措施與保護說明 |
三、指標執行步驟(自動/AI 輔助/人工)
本詮釋資料框架指標評估建議兼採自動化檢核、導入 AI 輔助與人工審查等 3 種模式,以提高效率並兼顧評估品質。首先,可搭配自動化檢核工具,進行結構化規則比對、欄位格式檢查、自動欄位對應分析等,以提升可程式化檢核項目之評估效率;其次,針對需進一步優化或補齊之詮釋資料內容,可導入 AI 輔助機制,由 AI 工具先依據預設指令(prompt)產出檢測提示(附帶評估係數或符合指標程度說明),若 AI 輔助評估結果高於使用情境之預設門檻,則完成評估或另採抽樣確認,若 AI 輔助評估結果低於使用情境之預設門檻,則逐筆續交由人工進行覆核,並衡量建立通案性評估基準;針對語意一致性、描述完整性、可信任性及涉及資料敏感相關內容,建議仍應由專責人員進行審查,以確保資料之正確性與適用性。
表 9 各構面自動化檢核、AI 輔助及人工檢核對照表
| 構面 | 指標 | 衡量指標 | 自動化檢核建議 | AI 輔助建議 | 人工檢查建議 |
|---|---|---|---|---|---|
| 可查找性 Findability |
完整性 Completeness |
1.資料集中資料為空值的數量 | 可透過 Python 搭配 JSON Schema Validator 或其他套件工具組合,檢核欄位完整程度 | 導入 AI 輔助產出檢測提示,指出欄位缺漏或完整性狀況 | 確認 AI 提示是否符合實際資料狀態 |
| 2.詮釋資料欄位未填的數量 | |||||
| 3.在詮釋資料填寫資料集大小 | |||||
| 可發現性 Discoverability |
1.詮釋資料提供資料集名稱/標題 | 導入 AI 輔助產出檢測提示,標示標題與關鍵字的可辨識度或缺漏 | 檢視是否符合專業語境與使用需求 | ||
| 2.詮釋資料填寫關鍵字欄位 | |||||
| 3.詮釋資料填寫分類欄位 | |||||
| 4.詮釋資料填寫資料收集時間區間資訊 | |||||
| 5.詮釋資料填寫空間資訊 | |||||
| 可近用性 Accessibility |
可得性 Availability |
1.提供資料下載網址 | 可透過網址驗證工具(例如 curl、wget)檢核資料下載連結是否有效 | AI 產出檢測提示,指出 API 或授權資訊是否完整 | 人工確認授權正確性與可近用合理性 |
| 2.資料下載網址可近用 | |||||
| 3.無需註冊即可下載資料 | |||||
| 4.詮釋資料提供使用授權資訊 | |||||
| 5.詮釋資料以受控制詞彙提供授權資訊(泛指詮釋資料所使用詞彙是透過經整理之受控制的權威詞彙) | |||||
| 6.具備應用程式介面(API) 或網路服務(Web Service) 來近用資料集 | |||||
| 7.提供近用資料集之 API 的說明文件 | |||||
| 互通性 Interoperability |
合規性 Conformity / Compliance |
1.資料/詮釋資料的日期格式符合規範 | 可透過自訂正規式表達檢查工具檢核資料描述合理性 | AI 產出檢測提示,標示格式異常或不一致之處 | 人工覆核特殊格式或領域慣例 |
| 2.資料/詮釋資料的 EMAIL 格式符合規範 | |||||
| 3.資料字元編碼符合規範 | |||||
| 機器可讀性/可處理性 Machine Readability / Processability |
1.檔案格式與媒體類型的可處理性 | 可透過資料格式驗證工具檢查(如 CSV、JSON、XML) | AI 產出檢測提示,指出格式是否為常見可處理類型,以及應用領域中是否廣泛支援 | 人工確認格式開放性與實務適用性 | |
| 開放性 Openness |
1.檔案格式的開放性與廣泛支援程度 | ||||
| 再利用性 Reusability |
及時性 Timeliness |
1.詮釋資料提供更新頻率 | 可利用時間設定函式自動比對時間戳記 | AI 產出檢測提示,提示更新週期是否與預期一致 | 人工判斷檢查資料提供歷程合理性(例如統計月報應以每月為更新週期、資料上架日期與最近修改日期不應為未來時間等) |
| 2.詮釋資料提供資料上架日期 | |||||
| 3.詮釋資料提供資料最近修改日期 | |||||
| 一致性 Consistency |
1.在資料/詮釋資料中非容許值的數量 | 可透過資料值檢查工具(例如 OpenRefine、Pandas),檢核資料空值、重複及一致程度 | AI 產出檢測提示,標示數值或單位不一致的情況 | 人工個案研判確認資料內容是否異常 | |
| 2.不具重複資料 | |||||
| 3.資料採用一致的計量單位、資料類型和參數名稱 | |||||
| 相關性 Relevance |
1.資料筆數 | 可利用自動化條件工具比對資料筆數與欄位數 | AI 產出檢測提示,指出資料筆數或欄位與應用需求的匹配度 | 人工判斷是否符合實際使用場景 | |
| 2.資料欄位 | |||||
| 可理解性 Understandability |
1.詮釋資料提供資料集背景目的說明 | 可透過布林值(Boolean)條件自動檢核是否有填寫 | AI 產出檢測提示,指出資料筆數或欄位與應用需求的匹配度 | 人工判斷是否符合實際使用場景 | |
| 2.詮釋資料提供資料集的資料字典/代碼手冊 | |||||
| 可信度 Credibility |
1.詮釋資料提供聯絡窗口 | AI 產出檢測提示,標示聯絡與回饋資訊是否完備 | 人工確認資訊正確性與可追溯性 | ||
| 2.詮釋資料提供資料集發佈者 | |||||
| 3.詮釋資料提供用戶回饋和建議的機制 | |||||
| 可信任性 Trustworthiness |
隱私及資料保護 Privacy and Data Protection |
1份質性文件針對資料集於隱私保護、偏差預防及透明度提出說明,以利資料合規使用並降低潛在應用風險 | 可透過布林值(Boolean)條件自動檢核是否有填寫 | AI 產出檢測提示,指出隱私保護文件是否說明隱私保護做法、標示資料分布或樣本是否可能偏差、透明度資訊是否完整(來源、限制、處理方法) | 建議人工檢視質性文件,並依據資料應用目的,確認資料內容是否足具代表性且偏誤風險可控 |
| 偏差預防 Bias Prevention |
|||||
| 透明度 Transparency |

