跳到主要內容

壓縮檔的manifest格式

採用 RFC 4180 CSV 填寫,有三個欄位「name、schema、description」。

  • name 欄為需要被處理的資料集檔案名稱,此欄位為必需。
  • schema 欄為資料集的 schema 對應,此欄位為選填。若一份壓縮檔中採用多個schema,則可以schema-*.csv命名;至少有兩個欄位「name、title」,name欄為資料中顯示的欄位名稱,title為欄位名稱的描述。
  • description 欄為此資料資源檔的描述或是備註等等的資訊,此欄位為選填。

不在描述內的檔案一律被忽略。檔案格式由副檔名判斷 。

注意事項:

  • 在「檔名大小有關」(如unix,linux等)的系統下包裝壓縮檔時要注意不要有檔名相同大小寫不同的檔名在同一個目錄階層同時出現,如 foo.csv 和 FOO.CSV。
  • manifest 的編碼只接受 UTF-8。
  • 壓縮檔內的壓縮檔不再進行解壓處理。
  • Manifest 的檔名應為 manifest.csv 且需置放在壓縮檔最上層。
  • manifest.csv 內列示的檔案為此壓縮檔內所必需要被處理的檔案,因此只要列示就會進行處理,即使有兩個檔案具有相同檔名(副檔名不同)一樣會進行處理。
  • Schema需置放在壓縮檔最上層。
  • 若壓所檔內的檔案(如:xml、json)為巢狀(多維)且符合「表格式」的內容,請於manifest.csv新增「qcLevel」欄位,並於內容填寫主要欄位所在的階層(關於qcLevel階層填列請參考常見問答)

壓所檔內的檔案為巢狀(多維)且符合「表格式」的內容,於manifest.csv新增「qcLevel」欄位

範例:以不動產買賣實價登錄批次資料為例,所產生的manifest.csv與schema-*.csv請見此處

分類: 
資料品質提升機制說明文件