分類
資料品質提升機制說明文件
本文件為「政府資料品質提升機制運作指引」的補充,所有機制的設計皆以「政府資料品質提升機制運作指引」為主導方針。
-
壓縮檔處理策略:
- 壓縮檔內的 readme*.* 與 schema*.* (不管大小寫)皆會被忽略不計。
- 壓縮檔內的壓縮檔不處理,就算是寫在 manifest.csv 內一樣不處理。
- 所有檔案應放在壓縮檔的最上層。因此若所有的檔案都放在最上層目錄下,則視為不符合規範的壓縮檔,因此檔案皆不會被處理。
- 若壓縮檔解開後,濾除 reademe*.* 和schema*.* 後有超過一個的檔案:
- 檢查是否有 manifest.csv(不管大小寫) 的存在
- 若有則依照 manifest.csv與schema-*.csv的規範取出要處理的檔案進行處理。
- 若無查看是否內含 kml 或是 shp 檔:
- 若有則交給 kml 或 shp 的處理函式處理。(因 kml 和 shp 的壓縮格式本來就允許多檔存在)
- 若無則視為無法處理的壓縮檔。後續的品質檢測面向皆視為「未知」。
- 檢查是否有 manifest.csv(不管大小寫) 的存在
- 若壓縮檔是符合規範的多檔案形式(含有 manifest),則檢測結果產生的 CSV 檔,將會被壓縮成 zip 格式供下載。
- 非固定欄位XML和JSON的主要欄位比對策略:
若 XML 和 JSON 不符合「固定欄位格式」的定義時,比對主要欄位時:
- XML :系統會檢查所有的 Element name,若所有的「主要欄位」都至少有一個相對應的 XML Element,則代表符合,反之則否。
- JSON:系統會檢查所有的 JSON key, 若所有的「主要欄位」都至少有一個相對應的 JSON key,則代表符合,反之則否。
-
RFC 4180 規範:
所有上架的 CSV 格式檔皆應該符合 RFC 4180 的規範。 -
交集式輸出:
- 「資料集」的檢測結果是所有「資料資源」檢測結果的交集,因此資料資源有一檢測面向為「否」則整個資料集的此面向為否。
- 「資料資源」的檢測結果是所有「資料資源檔」檢測結果的交集。因此若一筆資料資源有多筆檢測檔(manifest.csv 有定義),則此「資料資源」的檢測結果為這些「檢測檔」結果的交集。
- 若檢測面向值為「未知」則不影響檢測結果。