跳到主要內容

資料品質檢測系統基本方針

本文件為「政府資料品質提升機制運作指引」的補充,所有機制的設計皆以「政府資料品質提升機制運作指引」為主導方針。

  1. 壓縮檔處理策略:

  • 壓縮檔內的 readme*.* 與 schema*.* (不管大小寫)皆會被忽略不計。
  • 壓縮檔內的壓縮檔不處理,就算是寫在 manifest.csv 內一樣不處理。
  • 所有檔案應放在壓縮檔的最上層。因此若所有的檔案都放在最上層目錄下,則視為不符合規範的壓縮檔,因此檔案皆不會被處理。
  • 若壓縮檔解開後,濾除 reademe*.* 和schema*.* 後有超過一個的檔案:
    • 檢查是否有 manifest.csv(不管大小寫) 的存在
      • 若有則依照 manifest.csv與schema-*.csv的規範取出要處理的檔案進行處理。
      • 若無查看是否內含 kml 或是 shp 檔:
        • 若有則交給 kml 或 shp 的處理函式處理。(因 kml 和 shp 的壓縮格式本來就允許多檔存在)
        • 若無則視為無法處理的壓縮檔。後續的品質檢測面向皆視為「未知」。
  • 若壓縮檔是符合規範的多檔案形式(含有 manifest),則檢測結果產生的 CSV 檔,將會被壓縮成 zip 格式供下載。
  1. 非固定欄位XML和JSON的主要欄位比對策略:
    若 XML 和 JSON 不符合「固定欄位格式」的定義時,比對主要欄位時:
  • XML :系統會檢查所有的 Element name,若所有的「主要欄位」都至少有一個相對應的 XML Element,則代表符合,反之則否。
  • JSON:系統會檢查所有的 JSON key, 若所有的「主要欄位」都至少有一個相對應的 JSON key,則代表符合,反之則否。
  1. RFC 4180 規範:
    所有上架的 CSV 格式檔皆應該符合 RFC 4180 的規範。

  2. 交集式輸出:

  • 「資料集」的檢測結果是所有「資料資源」檢測結果的交集,因此資料資源有一檢測面向為「否」則整個資料集的此面向為否。
    • 「資料資源」的檢測結果是所有「資料資源檔」檢測結果的交集。因此若一筆資料資源有多筆檢測檔(manifest.csv 有定義),則此「資料資源」的檢測結果為這些「檢測檔」結果的交集。
  • 若檢測面向值為「未知」則不影響檢測結果。
分類: 
資料品質提升機制說明文件