中文標準交換碼

CNS 11643
別名	中文標準交換碼
語言	繁體中文
標準	CNS 11643
分類	ISO 2022、雙位元組字元集、中日韓統一表意文字
編碼格式	EUC-TW (所有字面); ISO-2022-CN-EXT (字面1–7); ISO-2022-CN (字面1和字面2);
其他相關編碼	大五碼、中文資訊交換碼
	閱; 論; 編;

中文標準交換碼（Chinese Standard Interchange Code，簡稱CSIC），是中華民國國家標準11643號，簡稱CNS 11643，舊名通用漢字標準交換碼（Chinese Ideographic Standard Code for Information Interchange，簡稱CISCII），是中華民國政府為中文資訊處理制定的字元編碼方案，與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基於ISO 2022定義，和ASCII相容，其EUC版本為EUC-TW。

簡介

1980年9月，行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議，建立國家中文資訊標準交換碼的編碼原則，並報請行政院核定。隔年，行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組，推動編碼工作。經多次會商，於1983年10月底完成「通用漢字標準交換碼」的試用版，試行二年。試用期滿後，國科會與主計處電資中心邀集相關單位與業者組成技術小組，檢討試用結果，並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局（後改名為標準檢驗局）正式公佈，取名「通用漢字標準交換碼」，其內容包括第一字面、第二字面共13,051字^[1]。

1980年代萬「碼」奔騰，業界使用各種不同的字符編碼，如大五碼、王安碼、IBM 5550碼、公會碼、電信碼^[2]、倚天碼等；CNS11643與大五碼字數相同（大五碼有13,053字，但有兩個重碼）。藉由此國家標準交換碼的公布與使用，做為各種不同內碼間的橋梁，使得不同的內碼也可以互相溝通和交換，資料可共享。

為因應各界對擴大中文字元集的需求，中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面，共48,027字，並更名為「中文標準交換碼」。2003年，標準檢驗局委託中文數位化技術推廣基金會再次擴編，於2004年推出新版的CNS11643，將編碼空間由原先規定的十六字面增加到八十字面，並使用至第十五字面。2014年，使用第十七、十九字面。2021年，使用第二十四字面^[3]^[4]。

「CNS11643中文交換碼全字庫」為1999年時，由主計處電資中心委託中文數位化技術推廣基金會建置，用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造，全字庫改由研考會辦理，自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後，網站管理機構調整為數位部^[5]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號、注音、部首、漢字構件等字元，以有倉頡碼屬性的字來計算，大約有9萬6,600多個漢字^[6]^[7]。

版本

年份	標準名稱	更改
1983	CNS11643-1983	通用漢字標準交換碼試用版推出，包括13,053字及441個符號，12月推出的大五碼，字集與字序與交換碼試用版完全相同，僅字碼定義不同。
1986	CNS11643-1986	通用漢字標準交換碼正式版發行，包括13,051個字（刪除2個重複字，調整20個字順序）與441個符號，其餘均與試用版相同。
1988	CNS11643-1986	增加第十四字面使用者加字區交換碼，共增加6,148字。
1989	CNS11643-1986	再增加第十四字面使用者加字區交換碼，共增加157字。
1992	CNS11643-1992	擴充第3至7字面，增加部首和數字符號，並更換名稱為中文標準交換碼，總共包括48,027個字與684個符號。
2002	CNS14649	國際標準ISO 10646／Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出，包括中、日、韓、越等20,902個漢字，及全球使用的字元。
2004	CNS11643-2004	編碼架構擴充至八十字面。
2008	CNS11643-2008	擴充版發行，增加了戶政用字與異體字等。

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元（英語：Graphic character）多位元組延伸編碼格式^[4]，以2個位元組 (byte)為中文碼編碼單位，以十六進位制之文數字表示，並且避開控制碼所在的範圍。字面字集之排列，大抵以使用頻率為次序，第一字面以常用字為主，第二字面以次常用字為主，第三字面以部分罕用字及較常用異體字為主，其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中，依先筆畫後部首排列順序來編訂字碼（每一字面均以文字筆畫總數為第一次序，筆劃數同則按照部首為次序，部首同再按照筆順為次序）^[8]。

CNS 11643採用多字面編碼結構，並藉助ISO/IEC 2022所規定的逸出順序（escape sequence）和調用控制符切換字面。因此，同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字（例如：第1字面字元碼454A為中文字「日」，而第2字面的454A是中文字「碇」）。CNS 11643在新版中規定了延伸字元碼，作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前，附加該字元所屬字面的字面指示碼^[4]。

終結字元

目前 CNS11643 的1~7 字面之終結字元（最後字元、最終位元組） [F] 已獲國際標準組織 ISO 正式登記為 47 至 4D ，亦可使用於字集之指定^[8]^[9]。依據ISO 237之規定，各國的國家標準若要成為國際間之中文資訊交換標準，必須向國際標準組織申請註冊，並由國際標準組織正式公佈，如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面，每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請，1993年2月1日CNS 11643第一、第二字面正式獲得終結字元：47和48，1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元：49 - 4D。

CNS字面	CNS暫用終結字元	ISO正式終結字元
第一字面	30	47
第二字面	31	48
第三字面	32	49
第四字面	33	4A
第五字面	34	4B
第六字面	35	4C
第七字面	36	4D

與大五碼關係

大五碼為資訊工業策進會與臺灣十三家資訊業者簽約，共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出，共收錄13,053個漢字（有兩字重複編碼，故實際上只有13,051個字）、408個符號、33個控制字元^[13]，其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同，但碼位不同。「通用漢字標準交換碼」在1986年推出正式版，刪除試用版的2個重複編碼字，調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準，然而所涵蓋的字數不敷實際需求，造成廠商各自增刪，衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託，召集國內業者代表、專家和學者，就大五碼字元表的原始版本和業界主要版本予以重整，稱為Big5-2003^[14]。重整後的版本，去除了重複編碼，並新增7個中文字，以及370個符號，包括30個數字符號、24個部首、14個罕用符號、268個日本假名，以及34個表格符號^[13]。其成果最後收錄至CNS 11643的附錄之中^[15]。

比較

中央標準局所公佈的《通用漢字標準交換碼》（後更名為《中文標準交換碼》，CNS11643）與1984年發布的業界事實標準五大碼 (Big5) 有些許共同之處：兩者都使用國字標準字體表為基礎，但是《中文標準交換碼》所定義的碼位更符合國字標準字體表所選定的字形。國字標準字體表本身並未定義字形的碼位，而是依賴於其他標準將字形賦予碼位。

其中，五大碼與現在的《中文標準交換碼》有部分收字差異：

五大碼與《中文標準交換碼》(CNS11643)的差異^[16]
國字	字表序號^[17]	CNS11643	Big5收錄異體	備註
U+5F5E彞	A01266	1-7641	C255，U+5F5D彝
U+53C4叄	B00287	3-3455		五大碼未收錄
U+564D噍	B00439	3-4B43		五大碼未收錄
U+36B7㚷	B00635	3-2847		五大碼未收錄
U+5B0E嬎	B00715	3-4B5F	E955，U+5B14嬔	CNS11643 第二字面 2-565F 疑似誤收 U+5B14嬔字，但是顯示為無點的 U+5B0E嬎
U+5C14爾	B00760	3-223F		五大碼未收錄
U+3BA3㮣	B01783	3-4167		五大碼未收錄
U+7934礴	B03027	2-662B	F2A1，U+7921礡	疑似 Unicode 統合時錯誤對應到統合漢字 U+7921礡上
U+7DF5緵	B03452	3-4E2B	EDDB，U+7E4C繌	CNS11643 第二字面 2-5E48 疑似誤收 U+7E4C繌字
U+9638阸	B05531	4-2833		五大碼未收錄
U+9C0C鰌	B05989	3-5D76		五大碼未收錄

參看

資料來源

^ 余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始內容存檔 (PDF)於2022-12-16）.
^ 陳冠州. 電信碼. 國家教育研究院樂詞網. 1995-12 [2024-04-29]. （原始內容存檔於2024-04-29）.
^ 存档副本. [2015-03-28]. （原始內容存檔於2015-04-02）.
^ ^4.0 ^4.1 ^4.2 曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始內容存檔於2022-05-28）.
^ 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始內容存檔於2022-12-16）.
^ 全字庫現況. [2022-12-16]. （原始內容存檔於2023-01-27）.
^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. （原始內容存檔於2022-12-17）. 現有字數：現行全字庫中，戶政與地政部分用字經檢查為認同字，因而刪除該碼位資料，但仍保留該碼位的位置，現有字數即去除這些被認同掉的字碼，所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字，所以沒有注音、倉頡等屬性資料碼位個數
^ ^8.0 ^8.1 認識全字庫＞中文碼介紹. [2022-12-17]. （原始內容存檔於2021-05-14）.
^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始內容存檔 (PDF)於2022-12-17）.
^ 存档副本. [2021-12-12]. （原始內容存檔於2022-07-14）.
^ 存档副本. [2021-12-12]. （原始內容存檔於2022-07-14）.
^ 存档副本. [2021-12-12]. （原始內容存檔於2022-07-10）.
^ ^13.0 ^13.1 曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始內容存檔於2022-05-28）.
^ 認識全字庫＞中文碼介紹. [2022-12-17]. （原始內容存檔於2021-05-14）.
^ 謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始內容存檔於2022-12-17）.
^ 次常用國字標準字體表 - 字嗨！. zi-hi.com. [2023-04-25]. （原始內容存檔於2021-05-14）.
^ 國家教育研究院. 教育部异体字字典. [2021-05-14]. （原始內容存檔於2021-05-15）（中文（臺灣））.

外部連結

CNS11643中文標準交換碼全字庫（頁面存檔備份，存於網際網路檔案館）
CNS11643中文標準交換碼全字庫資料集（頁面存檔備份，存於網際網路檔案館）
CNS 11643與Unicode對照表（頁面存檔備份，存於網際網路檔案館）
曾士熊：認識中文字元碼 - 中文標準交換碼（CNS 11643）（頁面存檔備份，存於網際網路檔案館）
依據各平面顯示所有字符的PDF（舊資料）

[余保倫-1] 余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始內容存檔 (PDF)於2022-12-16）.

[2] 陳冠州. 電信碼. 國家教育研究院樂詞網. 1995-12 [2024-04-29]. （原始內容存檔於2024-04-29）.

[3] 存档副本. [2015-03-28]. （原始內容存檔於2015-04-02）.

[曾士熊-CNS-4] 4.0 ^4.1 ^4.2 曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始內容存檔於2022-05-28）.

[5] 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始內容存檔於2022-12-16）.

[全字庫現況-6] 全字庫現況. [2022-12-16]. （原始內容存檔於2023-01-27）.

[7] 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. （原始內容存檔於2022-12-17）. 現有字數：現行全字庫中，戶政與地政部分用字經檢查為認同字，因而刪除該碼位資料，但仍保留該碼位的位置，現有字數即去除這些被認同掉的字碼，所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字，所以沒有注音、倉頡等屬性資料碼位個數

[CNS11643-8] 8.0 ^8.1 認識全字庫＞中文碼介紹. [2022-12-17]. （原始內容存檔於2021-05-14）.

[9] 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始內容存檔 (PDF)於2022-12-17）.

[10] 存档副本. [2021-12-12]. （原始內容存檔於2022-07-14）.

[11] 存档副本. [2021-12-12]. （原始內容存檔於2022-07-14）.

[12] 存档副本. [2021-12-12]. （原始內容存檔於2022-07-10）.

[Big5-13] 13.0 ^13.1 曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始內容存檔於2022-05-28）.

[14] 認識全字庫＞中文碼介紹. [2022-12-17]. （原始內容存檔於2021-05-14）.

[15] 謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始內容存檔於2022-12-17）.

[16] 次常用國字標準字體表 - 字嗨！. zi-hi.com. [2023-04-25]. （原始內容存檔於2021-05-14）.

[17] 國家教育研究院. 教育部异体字字典. [2021-05-14]. （原始內容存檔於2021-05-15）（中文（臺灣））.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]