CNS11643中文標準交換碼全字庫(簡稱全字庫)

資料集評分: 
平均 4.6 (208 人次投票)
資料集描述: 
zip壓縮檔,內容包含全字庫字型、屬性資料及中文碼對照表三部分,其中全字庫字型提供明體、正宋體及正楷體3種;屬性資料則涵蓋注音、倉頡、筆畫、部首、拼音、部件及筆順等7種;中文碼對照表則提供BIG5、Unicode、電信碼、地政自造字、財稅內碼、稅務碼及工商自造字等7種中文內碼對照。
主要欄位說明: 
資料資源: 
ZIP 檢視資料全字庫資料集,107年8月10日更新
主要欄位說明: 
檔案格式: 
ZIP
編碼: 
N/A
資料量: 
0
資源描述: 
全字庫資料集,107年8月10日更新
資料資源更新時間: 
2018/08/10 14:23
CSV 檢視資料全字庫資料集的目錄檔案列表
主要欄位說明: 
名稱、所屬、類別、說明
檔案格式: 
CSV
編碼: 
UTF-8
資料量: 
62
資源描述: 
全字庫資料集的目錄檔案列表
資料資源更新時間: 
2018/08/08 17:30

經本平臺品質檢測後符合表格化資料之資料資源將會轉為CSV、XLSX、ODS、XML、JSON檔案格式,若所轉出之資料內容與機關所提供之原始資料有所出入,請以機關所提供之原始資料為主。

提供機關: 
提供機關聯絡人: 
黃先生 (02-23165300#6822)
更新頻率: 
不定期
授權方式: 
政府資料開放授權條款-第1版
計費方式: 
免費
上架日期: 
2015/02/01
資料集類型: 
原始資料
詮釋資料更新時間: 
2018/08/14 14:21
主題分類: 
政府統計
服務分類: 
資料集分類: 
甲類資料
備註: 

授權說明網址: http://data.gov.tw/license
如有關全字庫資料集或其他問題,請參考 http://www.cns11643.gov.tw/AIDB/service_consulting.do 網頁,歡迎來信: cnscode@ndc.gov.tw至 客服信箱或來電:(02)2598-7557轉217 洽詢,我們將為您解答。

瀏覽次數: 159911 下載次數: 15190 意見數: 89

回應

1. 目前內容並未提及是何時至何時的更新,若未來有進一步異動,可能會造成混淆,建議加上更動時間。

2. 此檔案似乎只會記錄 metadata 的更新,建議將檔名改為「詮釋資料異動記錄.txt」之類更易理解的名稱。

8/11 下載版本的 CNS_phonetic.txt 資料表有很多問題。如 3-2525的值有「˙ㄣ」、「ㄇㄛˋ」、「ㄈㄨˇ」、「ㄣ˙」,第一和第四個值同義但格式不一致;3-3F54 的值有「ㄕㄨㄤˇ」、「ㄩㄢˇ」、「ㄩㄢˇㄩ」,第三項不是正確的注音;3-3773的值有「ㄅㄞˇ」、「單位詞」,第二項不是注音。以上略舉幾個代表性的例子,類似錯誤還有很多很多,可能需要大規模掃描及修正。

詮釋資料更新時間: 2018/08/08 17:55 ,然而實際下載到的檔案「內容」還是 2018/08/03 的版本,請全字庫確實的更新檔案!

您好:
感謝您的留言。
詮釋資料更新時間係指該資料集詮釋資料(資料集描述、主要欄位說明…等)異動時間,與下載資料內容時間不同,詳情請洽本平臺客服中心 電話:0800-588556 信箱:opendata@ndc.gov.tw
如對本資料集內容有任何問題,請參考 http://www.cns11643.gov.tw/AIDB/service_consulting.do 網頁,歡迎來信: cnscode@ndc.gov.tw至 客服信箱或來電:(02)2598-7557轉217 洽詢,我們將為您解答。
再次感謝您的留言。
祝 安康 中文標準交換碼全字庫小組 敬上

2018/08/01下載的ZIP資料檔似乎做了不少改動,但有一些錯誤:
- CNS_strokes_sequence.txt 的內容被誤植為部件,而非筆順序
- CNS_phonetic.txt 多了很多空白行,例如「12-2978 ㄊㄨˇ」的下一行
- Properties/* 資料檔有些並未按CNS字碼排序
- Properties/* 資料檔改成了兩欄式(CNS字碼(字面-編碼)、*),但 MapingTables 仍是之前的三欄式。不曉得是否基於其他考量而刻意不改?
- CNS_cangjei.txt 命名錯誤(「倉頡」的正確拼音是「cangjie」而非「cangjei」)

您好:
感謝您的留言。
關於您所提下載資料錯誤部分修正如下:
CNS_strokes_sequence.txt內容修正為筆順序資料
CNS_phonetic.txt去除空白列
Properties/* 內容依CNS字碼由小至大排序
MapingTables 內容CNS碼原為二欄(第一欄字面, 第二欄編碼)現改為一欄(字面-編碼)
原CNS_cangjei.txt檔名修正為CNS_cangjie.txt
感謝您的指正。如有後續或其他問題,請參考 http://www.cns11643.gov.tw/AIDB/service_consulting.do 網頁,歡迎來信: cnscode@ndc.gov.tw至 客服信箱或來電:(02)2598-7557轉217 洽詢,我們將為您解答。
再次感謝您的留言。
祝 安康 中文標準交換碼全字庫小組 敬上

感謝費心處理

感謝貴單位查證及處理先前提及的問題。但查貴單位更新了CNS11643=13-5127字元的「部件、筆畫」,但全字庫網站的「字型新增異動公告」頁面並未列出此異動,CNS11643=13-5127字元的異動記錄只列出「部件」而未列出「筆畫」。本資料集的內容也做了相應的更動,但「詮釋資料更新時間」仍是「2018/01/05 15:43」,ZIP檔案旁的「檢視資料」點擊後顯示「資源描述: 全字庫資料集,zip檔,106年6月5日更新」「資料資源更新時間: 2018/03/30 02:03」,這些時間皆未反映此更新(應為 2018/07/31),希望未來在修改資料時能確實修正資料的更新時間,否則會令訪客無法得知資料有變動。

您好:
感謝您的留言。
關於CNS 13-5127之內容異動部份為修改明體及楷體之字形與宋體一致,屬性僅改部件,前述修改已登錄於全字庫網站字型新增異動公告(請參考http://www.cns11643.gov.tw/newsList.jsp?ID=1&ID2=197 )。
另本(政府資料開放)平臺,詮釋資料更新時間係指該資料集詮釋資料(資料集描述、主要欄位說明…等)異動時間,與下載資料內容時間不同。未來提供下載資料實際更新日期將登載於資源描述「資源描述」。
感謝您的指正。如有後續或其他問題,請參考 http://www.cns11643.gov.tw/AIDB/service_consulting.do 網頁,歡迎來信: cnscode@ndc.gov.tw至 客服信箱或來電:(02)2598-7557轉217 洽詢,我們將為您解答。
再次感謝您的留言。
祝 安康 中文標準交換碼全字庫小組 敬上

感謝處理及回應。

惟仍有一些問題:
1. 字型新增異動公告 #197 提供 13-5127 連結的網址錯誤。
2. 「檢視資料 > 資料資源更新時間:」似乎就是下載資料實際更新時間,在「資源描述」另外加註似乎有點奇怪,詳見新的留言。