跳至主要內容

政府資料開放平臺

柒、評估流程與作業方式

為協助資料提供及使用雙方在資料釋出與利用過程中,初步瞭解其資料品質與結構特性是否具備支援 AI 應用之潛力,本節說明 AI-Ready Data 詮釋資料框架指標的評估流程與作業建議。內容涵蓋評估的啟用時機、資料預備要件、執行方法到成果彙整方式,提供一套可資參考之標準作業流程,供機關依實際需求採用與調整,作為資料品質管理與應用準備之輔助工具,進一步推動制度化作業與實務應用之銜接。資料提供方得依領域專業,使用衡量指標檢查表(如附錄)進行各構面下指標逐項評估,俾利落實追蹤資料優化補強歷程,AI-Ready Data 詮釋資料框架指標構面示意圖如下圖 1。


圖 1 AI-Ready Data 詮釋資料框架指標構面示意圖

一、使用時機

推動 AI-Ready Data 詮釋資料框架指標進行資料評估實務中,清楚界定「何時應進行評估」可導入作為內部流程的一環,避免資料釋出後再補救的效率損失與風險。建議針對以下 2 情境執行 AI-Ready Data 評估:

表 7 指標使用時機對照表

表 7 指標使用時機對照表
使用情境 目的 建議頻率 實例情境
資料上架預檢 確保符合 AI 應用基本門檻與品質規範 每次資料上架或更新 資料首次產出、重大內容調整後、例行資料統計
定期品質盤點 作為資料年度品質管理之依據 每年或每半年一次 年度資料盤點

二、資料收集與前處理要求

為提升資料的自動檢核效率,需在評估前完成基礎的資料標準化處理,以確保評估結果客觀且具代表性為重要前提。以下為各面向之處理建議:

表 8 資料品質處理建議表

表 8 資料品質處理建議表
資料面向 資料品質面向 處理建議說明
資料結構與格式 資料欄位 建立清楚命名原則、資料型別、單位一致、欄位定義文件(資料字典)
編碼規範 使用國際通用之標準編碼(例如 UTF-8 編碼格式、日期使用 ISO 8601 格式等)
資料內容與語意 缺漏值 建立標示缺值(如 NA、null)之標準化處理規則
控制詞彙 採用控制詞彙(如 Chinese National Standards,CNS)、都柏林核心詮釋資料(Dublin Core Metadata Initiative,DCMI)或自建詞彙表控制描述語意
資料機敏風險 隱私及資料保護 涉及個資資料應提供適當隱私保護措施與保護說明

三、指標執行步驟(自動/AI 輔助/人工)

本詮釋資料框架指標評估建議兼採自動化檢核、導入 AI 輔助與人工審查等 3 種模式,以提高效率並兼顧評估品質。首先,可搭配自動化檢核工具,進行結構化規則比對、欄位格式檢查、自動欄位對應分析等,以提升可程式化檢核項目之評估效率;其次,針對需進一步優化或補齊之詮釋資料內容,可導入 AI 輔助機制,由 AI 工具先依據預設指令(prompt)產出檢測提示(附帶評估係數或符合指標程度說明),若 AI 輔助評估結果高於使用情境之預設門檻,則完成評估或另採抽樣確認,若 AI 輔助評估結果低於使用情境之預設門檻,則逐筆續交由人工進行覆核,並衡量建立通案性評估基準;針對語意一致性、描述完整性、可信任性及涉及資料敏感相關內容,建議仍應由專責人員進行審查,以確保資料之正確性與適用性。

表 9 各構面自動化檢核、AI 輔助及人工檢核對照表

表 9 各構面自動化檢核、AI 輔助及人工檢核對照表
構面 指標 衡量指標 自動化檢核建議 AI 輔助建議 人工檢查建議
可查找性
Findability
完整性
Completeness
1.資料集中資料為空值的數量 可透過 Python 搭配 JSON Schema Validator 或其他套件工具組合,檢核欄位完整程度 導入 AI 輔助產出檢測提示,指出欄位缺漏或完整性狀況 確認 AI 提示是否符合實際資料狀態
2.詮釋資料欄位未填的數量
3.在詮釋資料填寫資料集大小
可發現性
Discoverability
1.詮釋資料提供資料集名稱/標題 導入 AI 輔助產出檢測提示,標示標題與關鍵字的可辨識度或缺漏 檢視是否符合專業語境與使用需求
2.詮釋資料填寫關鍵字欄位
3.詮釋資料填寫分類欄位
4.詮釋資料填寫資料收集時間區間資訊
5.詮釋資料填寫空間資訊
可近用性
Accessibility
可得性
Availability
1.提供資料下載網址 可透過網址驗證工具(例如 curl、wget)檢核資料下載連結是否有效 AI 產出檢測提示,指出 API 或授權資訊是否完整 人工確認授權正確性與可近用合理性
2.資料下載網址可近用
3.無需註冊即可下載資料
4.詮釋資料提供使用授權資訊
5.詮釋資料以受控制詞彙提供授權資訊(泛指詮釋資料所使用詞彙是透過經整理之受控制的權威詞彙)
6.具備應用程式介面(API) 或網路服務(Web Service) 來近用資料集
7.提供近用資料集之 API 的說明文件
互通性
Interoperability
合規性
Conformity / Compliance
1.資料/詮釋資料的日期格式符合規範 可透過自訂正規式表達檢查工具檢核資料描述合理性 AI 產出檢測提示,標示格式異常或不一致之處 人工覆核特殊格式或領域慣例
2.資料/詮釋資料的 EMAIL 格式符合規範
3.資料字元編碼符合規範
機器可讀性/可處理性
Machine Readability / Processability
1.檔案格式與媒體類型的可處理性 可透過資料格式驗證工具檢查(如 CSV、JSON、XML) AI 產出檢測提示,指出格式是否為常見可處理類型,以及應用領域中是否廣泛支援 人工確認格式開放性與實務適用性
開放性
Openness
1.檔案格式的開放性與廣泛支援程度
再利用性
Reusability
及時性
Timeliness
1.詮釋資料提供更新頻率 可利用時間設定函式自動比對時間戳記 AI 產出檢測提示,提示更新週期是否與預期一致 人工判斷檢查資料提供歷程合理性(例如統計月報應以每月為更新週期、資料上架日期與最近修改日期不應為未來時間等)
2.詮釋資料提供資料上架日期
3.詮釋資料提供資料最近修改日期
一致性
Consistency
1.在資料/詮釋資料中非容許值的數量 可透過資料值檢查工具(例如 OpenRefine、Pandas),檢核資料空值、重複及一致程度 AI 產出檢測提示,標示數值或單位不一致的情況 人工個案研判確認資料內容是否異常
2.不具重複資料
3.資料採用一致的計量單位、資料類型和參數名稱
相關性
Relevance
1.資料筆數 可利用自動化條件工具比對資料筆數與欄位數 AI 產出檢測提示,指出資料筆數或欄位與應用需求的匹配度 人工判斷是否符合實際使用場景
2.資料欄位
可理解性
Understandability
1.詮釋資料提供資料集背景目的說明 可透過布林值(Boolean)條件自動檢核是否有填寫 AI 產出檢測提示,指出資料筆數或欄位與應用需求的匹配度 人工判斷是否符合實際使用場景
2.詮釋資料提供資料集的資料字典/代碼手冊
可信度
Credibility
1.詮釋資料提供聯絡窗口 AI 產出檢測提示,標示聯絡與回饋資訊是否完備 人工確認資訊正確性與可追溯性
2.詮釋資料提供資料集發佈者
3.詮釋資料提供用戶回饋和建議的機制
可信任性
Trustworthiness
隱私及資料保護
Privacy and Data Protection
1份質性文件針對資料集於隱私保護、偏差預防及透明度提出說明,以利資料合規使用並降低潛在應用風險 可透過布林值(Boolean)條件自動檢核是否有填寫 AI 產出檢測提示,指出隱私保護文件是否說明隱私保護做法、標示資料分布或樣本是否可能偏差、透明度資訊是否完整(來源、限制、處理方法) 建議人工檢視質性文件,並依據資料應用目的,確認資料內容是否足具代表性且偏誤風險可控
偏差預防
Bias Prevention
透明度
Transparency