中文資訊交換碼
中文資訊交換碼(Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集和編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[2]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。
語言 | 漢語、日語、韓語 |
---|---|
標準 | MARC-8(機讀編目格式標準)、ANSI/NISO Z39.64 |
現狀 | 主要為圖書館系統使用 |
分類 | 基於ISO/IEC 2022結構用於中日韓文字的三位元組字元集(TBCS) 機讀編目格式標準的日、阿拉伯、中、韓、波斯、希伯來、意第緒文字(JACKPHY ) |
此交換碼每個字用三個位元組存儲,在節約空間方面不如大五碼,又不像中文標準交換碼成為官方標準,所以未被電腦業界廣泛採納[3]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[4][5]。故現僅臺灣和美國仍在使用,且只用於大學圖書館的線上目錄檢索系統。
簡介
1979年,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[6][1]。
謝清俊教授返國後,上書政務委員李國鼎及國科會、中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責,文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與,並由王振鵠、張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[7]。
臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[6]。
CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[8]。
「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[7]。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[9][10]。
編碼結構
該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。
一個94×94的編碼空間稱為面(Plane)。CCCII共有94個面。以6個面組合成為1個層(Layer)。因此CCCII共有16個層,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。
第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,放置異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:強、强、彊三字的後兩個位元組是一樣的[11]。
另見
注釋
- ^ 1.0 1.1 中文字集字碼簡介/ 編目組 - 東吳大學圖書館 (PDF). [2022-12-18]. (原始內容存檔 (PDF)於2022-12-26).
- ^ 謝清俊; 黃克東. 國字整理小組十年. 資訊應用國字整理小組. 1989: 29-34.
- ^ 多管齊下,徹底解決罕用字問題. ithome. [2022-12-20]. (原始內容存檔於2022-12-20).
- ^ (英文) Unicode Project(Library, City University of Hong Kong) (頁面存檔備份,存於網際網路檔案館)
- ^ (英文) Unicode Migration(Library, Chinese University of Hong Kong) (頁面存檔備份,存於網際網路檔案館)
- ^ 6.0 6.1 認識全字庫- 中文碼介紹. [2022-12-18]. (原始內容存檔於2021-05-14).
- ^ 7.0 7.1 宋建成. 國家圖書館故事. 卷二, 館藏發展與整理. 2020: 113 [2022-12-18]. (原始內容存檔於2022-12-18).
- ^ 曾世熊. 中文資訊交換碼 Chinese Character Code for Information Interchange,簡稱CCCII. 圖書館學與資訊科學大辭典. [2022-12-18]. (原始內容存檔於2022-12-18).
- ^ Ken Lunde. CJKV Information Processing. O'Reilly Media. 2009: 123 [2022-12-20]. (原始內容存檔於2022-12-20).
- ^ 中央研究院資訊科學研究所 20 週年慶特刊 謝清俊先生之簡介與訪談簡要. [2022-12-20]. (原始內容存檔於2020-10-20).
- ^ 來源參考:(中文)中文資訊交換碼,國字計劃小組,主編人張仲陶