Unicode
Unicode,全稱為Unicode標準(The Unicode Standard),其官方機構Unicode聯盟所用的中文名稱為統一碼[1],又譯作萬國碼、統一字元碼、統一字元編碼[2],是資訊科技領域的業界標準,其整理、編碼了世界上大部分的文字系統,使得電腦能以通用劃一的字元集來處理和顯示文字,不但減輕在不同編碼系統間切換和轉換的困擾,更提供了一種跨平臺的亂碼問題解決方案。Unicode由非營利機構Unicode聯盟(Unicode Consortium)負責維護,該機構致力讓Unicode標準取代既有的字元編碼方案,因為既有方案編碼空間有限,亦不適用於多語環境。
別名 | 通用字符集 (UCS) |
---|---|
語言 | 全球性 |
標準 | 統一碼標準 |
編碼格式 | UTF-8, UTF-16, GB18030 不常用: UTF-32, BOCU, SCSU 已淘汰: UTF-7 |
前用 | ISO/IEC 8859, 其他 |
Unicode伴隨着通用字符集ISO/IEC 10646的標準而發展,同時也以書本的形式[3]對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字元。目前最新的版本為2024年9月公佈的16.0.0[4],已經收錄超過15萬個字元(第十萬個字元在2005年獲採納)。Unicode標準不僅僅只是為文字指定代碼。除了涵蓋視覺上的字形、編碼方法、標準的字元編碼資料外,聯盟官方出版品還包含了關於各書寫系統的細節及呈現方式,如規範化的準則、拆分、定序、繪製、雙向文字顯示、書寫方向、字元特性(如大小寫字母)等等。此外還提供參考資料和視覺圖像,以幫助開發者和設計師正確應用標準。
Unicode備受認可,為ISO納入國際標準,成為通用字符集,即 ISO/IEC 10646。Unicode相容ISO/IEC 10646,能完整對應各個版本標準[5][6]。Unicode廣泛應用於電腦軟件的國際化與本地化過程。很多新科技,如可延伸標示語言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代作業系統,都採用Unicode來編碼。Unicode最普遍的編碼格式是和ASCII相容的UTF-8,以及和UCS-2相容的UTF-16。
起源與發展
Unicode為解決傳統字元編碼方案的侷限而產生,例如ISO 8859-1所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。很多傳統的編碼方式都有共同的問題,即容許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支援多語言環境(指可同時處理多種語言混合的情況)。
Unicode編碼包含了不同寫法的字,如「ɑ/a」、「強/强」、「戶/户/戸」。然而在漢字方面引起了一字多形的認定爭議,詳見中日韓統一表意文字。
在文字處理方面,統一碼為每一個字元而非字形定義唯一的代碼(即一個整數)。換句話說,統一碼以一種抽象的方式(即數字)來處理字元,並將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟件來處理,例如網頁瀏覽器或是文字處理器。
目前,幾乎所有電腦系統都支援基本拉丁字母,並各自支援不同的其他編碼方式。Unicode為了和它們相互相容,其首256個字元保留給ISO 8859-1所定義的字元,使既有的西歐語系文字的轉換不需特別考量;並且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會遺失任何資訊。舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半形形式顯示,這對豎排文字和等寬排列文字有重要作用。
在表示一個Unicode的字元時,通常會用「U+」然後緊接着一組十六進位的數字來表示這一個字元。在基本多文種平面裏的所有字元,要用四個數字(即2位元組,共16位元,例如U+4AE0,共支援六萬多個字元);在零號平面以外的字元則需要使用五或六個數字。舊版的Unicode標準使用相近的標記方法,但卻有些微小差異:在Unicode 3.0裏使用「U-」然後緊接着八個數字,而「U+」則必須隨後緊接着四個數字。
標準
位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的電腦軟硬件廠商,例如Adobe系統、蘋果公司、惠普、IBM、微軟、施樂等。
20世紀80年代末,組成Unicode組織的商業機構,和國際合作的國際標準化組織在電腦普及和資訊國際化的前提下,分別各自成立了Unicode組織[7]和ISO-10646工作小組。他們不久便發現對方的存在,而大家工作目的一致。1991年,Unicode Consortium與ISO/IEC JTC1/SC2同意保持Unicode碼表與ISO 10646標準保持相容並密切協調各自標準進一步的擴展。雖然實際上兩者的字集編碼相同,但本質上兩者確為不同的標準。Unicode 1.1對應於ISO 10646-1:1993,Unicode 3.0對應於ISO 10646-1:2000,Unicode 3.2對應於ISO 10646-2:2001,Unicode 4.0對應於ISO 10646:2003,Unicode 5.0對應於ISO 10646:2003及附錄1–3。
Unicode自2.0版本開始保持了向下相容,即新版本僅增加字元,原有字元不會刪除或更名。但從Unicode 14.0起,既有的區段可延伸或縮減(必須在沒有字元使用空間的前提下,若已有字元佔用空間不可縮減區段),第一個自Unicode 1.1以來擴展的既有區段為阿洪姆文(Ahom)。[8]
統一碼聯盟在1991年首次發佈了The Unicode Standard。Unicode的開發結合了國際標準化組織所制定的ISO/IEC 10646,即通用字符集。Unicode與ISO/IEC 10646在編碼的運作原理相同,但The Unicode Standard包含了更詳盡的實現資訊、涵蓋了更細節的主題,諸如位元編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard也列舉了諸多的字元特性,例如必須支援兩種閱讀方向的字元(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646兩個標準在術語上的使用有些微的不同。[5]
Unicode的第十萬個字元(用於馬拉雅拉姆語)於2005年引入標準。
歷史
截至目前的Unicode各版本及其發佈時間如下:
其中,因應2019冠狀病毒病疫情,Unicode 14.0由2021年3月延後至2021年9月發佈[9]。
版本 | 發佈日期 | 書籍 | 對應ISO/IEC 10646版本 | 文字數 | 字元數 | |
---|---|---|---|---|---|---|
總計[註 1] | 已知的擴增 | |||||
1.0.0 | 1991年10月 | ISBN 0-201-56788-1(Vol. 1) | 24 | 7,161 | 最初包含的文字有:阿拉伯字母、亞美尼亞字母、孟加拉文、注音符號、西里爾字母、天城文、格魯吉亞字母、希臘字母、古吉拉特文、古木基文、諺文、希伯來字母、平假名、卡納達文、片假名、寮文字、拉丁字母、馬拉雅拉姆文、奧里亞文、泰米爾文、泰盧固文、泰文字與藏文[10]。 | |
1.0.1 | 1992年6月 | ISBN 0-201-60845-6(Vol. 2) | 25 | 28,359 | 定義中日韓統一表意文字最初的20,902個字[11]。 | |
1.1 | 1993年6月 | ISO/IEC 10646-1:1993 | 24 | 34,233 | 於原有2,350個諺文字母的基礎上新增4,306個諺文字母。移除藏文[12]。 | |
2.0 | 1996年7月 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993與其第5-7修訂版 | 25 | 38,950 | 移除原有的諺文字母設置,於新的編碼範圍更換成11,172個新的諺文字母。藏文重新加入,但編碼位置更換。代理字元機制建立,並將第15與第16平面分配給私人使用區[13]。 |
2.1 | 1998年5月 | ISO/IEC 10646-1:1993與其第5-7修訂版,以及第18修訂版中新增的2個字元 | 25 | 38,952 | 新增歐元符號與對象替換字元[14]。 | |
3.0 | 1999年9月 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49,259 | 新增切羅基文、吉茲字母、高棉字母、蒙古字母、緬文、歐甘字母、盧恩字母、僧伽羅文、敘利亞字母、它拿字母、加拿大原住民音節文字和彝文,以及部分盲文圖案。[15] |
3.1 | 2001年3月 | ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001 |
41 | 94,205 | 新增德瑟雷特字母、哥特字母、古意大利字母、音樂符號和拜占庭音樂符號,增加了42711個中日韓統一表意文字(CJK-B)。[16] | |
3.2 | 2002年3月 | ISO/IEC 10646-1:2000與其第1修訂版
ISO/IEC 10646-2:2001 |
45 | 95,221 | 新增菲律賓文字布錫文、哈努諾文、他加祿文、塔格巴奴亞文。[17] | |
4.0 | 2003年4月 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96,447 | 新增塞浦路斯音節文字、林布字母、線形文字B、奧斯曼亞字母、蕭伯納字母、德宏傣文、烏加里特字母以及六十四卦。[18] |
4.1 | 2005年3月 | ISO/IEC 10646:2003與其第1修訂版 | 59 | 97,720 | 新增布吉文、格拉哥里字母、佉盧文、西雙版納傣文、古波斯文、錫爾赫特文和提非納文。科普特字母從希臘文區段分離。新增了古希臘音樂符號。[19] | |
5.0 | 2006年7月 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003與其第1、2修訂版,以及第3修訂版中新增的4個字元 | 64 | 99,089 | 新增峇里文、楔形文字、西非書面文字、八思巴文和腓尼基字母。[20] |
5.1 | 2008年4月 | ISO/IEC 10646:2003與其第1-4修訂版 | 75 | 100,713 | 新增卡利亞文、占婆字母、克耶黎文、絨巴文、利西亞文、呂底亞文、桑塔利文、拉讓文、索拉什特拉文、巽他文和瓦伊文。同時增加了斐斯托斯圓盤、麻將和多米諾骨牌符號。對緬甸文做了重要的補充,追加了手抄縮寫的額外字母,追加了大寫ẞ。[21] | |
5.2 | 2009年10月 | ISBN 978-1-936213-00-9 | ISO/IEC 10646:2003與其第1-6修訂版 | 90 | 107,361 | 新增阿維斯陀文、巴姆穆文字、埃及象形文字(加汀納符號表,涵蓋1071個符號)、亞拉姆文、巴拉維碑銘體、帕提亞碑銘體、爪哇文、凱提文、老傈僳文、曼尼普爾文、南阿拉伯字母、古突厥文、撒瑪利亞字母、老傣仂文和傣越文。追加4,149個中日韓統一表意文字(CJK-C),同時擴充了古韓文和吠陀梵文的字元。[22] |
6.0 | 2010年10月 | ISBN 978-1-936213-01-6 | ISO/IEC 10646:2010與印度盧比符號 | 93 | 109,449 | 新增巴塔克字母、婆羅米文字、曼達字母、紙牌符號、交通標誌、地圖符號、鍊金術符號、表情符號和表情圖案。追加222個額外的中日韓統一表意文字(CJK-D)。[23] |
6.1 | 2012年1月 | ISBN 978-1-936213-02-3 | ISO/IEC 10646:2012 | 100 | 110,181 | 新增查克馬字母、麥羅埃文、麥羅埃象形文字、柏格理苗文、夏拉達文、索拉僧平文字和泰克里文。[24] |
6.2 | 2012年9月 | ISBN 978-1-936213-07-8 | ISO/IEC 10646:2012與土耳其里拉符號 | 100 | 110,182 | 土耳其里拉符號[25]。 |
6.3 | 2013年9月 | ISBN 978-1-936213-08-5 | ISO/IEC 10646:2012與6個字元 | 100 | 110,187 | 5個雙向排版符號。[26] |
7.0 | 2014年6月 | ISBN 978-1-936213-09-2 | ISO/IEC 10646:2012與其第1、2修訂版,以及俄羅斯盧布符號 | 123 | 113,021 | 新增巴薩字母、高加索阿爾巴尼亞字母、杜普雷嚴速記、愛爾巴桑字母、古蘭塔文、可吉文、庫達瓦迪文、線形文字A、馬哈佳尼文、摩尼教字母、門得文字、莫迪字母、默文、納巴泰字母、古北阿拉伯文、古彼爾姆文、楊松錄苗文、帕米拉文字、袍清豪文、詩篇巴列維文、悉曇文字、底羅仆多文、瓦蘭齊地文以及裝飾符號。[27] |
8.0 | 2015年6月 | ISBN 978-1-936213-10-8 | ISO/IEC 10646:2014與其第1修訂版,以及喬治亞拉里符號、9個中日韓統一表意文字與41個表情符號[28] | 129 | 120,737 | 增加阿洪姆文、安納托利亞象形文字、哈坦文、穆爾塔尼文、古匈牙利字母、薩頓手語譜寫、5,771個中日韓統一表意文字字元(CJK-E)、切羅基文小寫字母,以及五種表情圖案膚色修改字元。[29] |
9.0 | 2016年6月 | ISBN 978-1-936213-13-9 | ISO/IEC 10646:2014與其第1、2修訂版,阿德拉姆字母、尼泊爾紐瓦字母、日本電視符號和74個表情圖案表情與符號。[30] | 135 | 128,237 | 新增阿德拉姆字母、比奇舒奇文、象雄文、尼泊爾紐瓦字母、歐塞奇字母、西夏文以及74個表情圖案[31] |
10.0 | 2017年6月 | ISBN 978-1-936213-16-0 | ISO/IEC 10646:2017,新增56個表情圖案符號、385個變體假名字元,和3個札那巴札爾字元[32] | 139 | 136,755 | 札那巴札爾、索永布文字、馬薩拉姆貢德文字、女書、變體假名(非標準平假名)、7,494個中日韓統一表意文字字元(CJK-F)與56個繪文字[33] |
11.0 | 2018年6月 | ISBN 978-1-936213-19-1 | ISO/IEC 10646:2017與其第1修訂版,新增145個表情圖案符號、5個急用漢字,copyleft符號、中國象棋符號等[34] | 146 | 137,374 | 多格拉文、格魯吉亞文騎士體大寫字母、貢賈拉貢德文、哈乃斐羅興亞文字、望加錫文、梅德法伊德林文、老粟特字母、粟特字母以及145個表情圖案[35] |
12.0 | 2019年3月 | ISBN 978-1-936213-22-1 | ISO/IEC 10646:2017與其第1、2修訂版,新增61個表情圖案符號、一些方言苗文字元、古日文用小型日文假名、泰米爾文的符號、聖書體控制字元等[36] | 150 | 137,928 | 埃利邁文、南迪城文、創世紀苗文、文喬文以及61個表情圖案[37] |
12.1 | 2019年5月 | ISBN 978-1-936213-25-2 | 150 | 137,929 | 只在U+32FF新增了一個字元,即日本新年號令和的合字。[38] | |
13.0 | 2020年3月 | ISBN 978-1-936213-26-9 | ISO/IEC 10646:2020[39] | 154 | 143,924 | 花剌子模語、迪維西語的島字母、契丹小字、庫爾德語字母的雅茲迪文、4969個中日韓統一表意文字(4939個位於擴充區G(CJK-G))、書寫豪薩語用的阿拉伯附加字母、沃洛夫語、其他非洲語言、在巴基斯坦書寫印德科語和旁遮普語的補充字元、粵語用的注音符號、共用創意授權符號、1970年代和1980年代電訊用圖符、55個繪文字[40] |
14.0 | 2021年9月 | ISBN 978-1-936213-29-0 | 159 | 144,697 |
| |
15.0 | 2022年9月 | ISBN 978-1-936213-29-0 | 166 | 149,186 | 卡維文和蒙達里字母、4,192個中日韓統一表意文字字元(CJK-H)、用於埃及象形文字的控制字元以及20個繪文字。 [42] | |
15.1 | 2023年9月 | ISBN 978-1-936213-29-0 | 167 | 149,813 | 622個中日韓統一表意文字字元(CJK-I)。 [43] | |
16.0 | 2024年9月 | ISBN 978-1-936213-34-4 | 168 | 154,998 |
一共新增5,185個字元,分類如下:
|
Unicode的編碼和實現
大概來說,Unicode編碼系統可分為編碼方式和實現方式兩個層次。
十大設計原則
《The Unicode Standard Version 6.2 – Core Specification》[44] 文件給出了Unicode的十大設計原則:
- Universality:提供單一、綜合的字元集,編碼一切現代與大部分歷史文獻的字元。
- Efficiency:易於處理與分析。
- Characters, not glyphs:字元,而不是字形。
- Semantics:字元要有良好定義的語意。
- Plain text:僅限於文字字元。
- Logical order:預設主記憶體表示是其邏輯序。
- Unification:把不同語言的同一書寫系統(scripts)中相同字元統一起來。
- Dynamic composition:附加符號可以動態組合。
- Stability:已分配的字元與語意不再改變。
- Convertibility:Unicode與其他著名字元集可以精確轉換。
編碼方式
統一碼的編碼方式與ISO 10646的通用字符集概念相對應。目前實際應用的統一碼版本對應於UCS-2,使用16位的編碼空間。也就是每個字元佔用2個位元組。這樣理論上一共最多可以表示216(即65536)個字元。基本滿足各種語言的使用。實際上目前版本的統一碼並未完全使用這16位元編碼,而是保留了大量空間以作為特殊使用或將來擴充。
上述16位元統一碼字元構成基本多文種平面。最新(但未實際廣泛使用)的統一碼版本定義了16個輔助平面,兩者合起來至少需要佔據21位的編碼空間,比3位元組略少。但事實上輔助平面字元仍然佔用4位元組編碼空間,與UCS-4保持一致。未來版本會擴充到ISO 10646-1實現級別3,即涵蓋UCS-4的所有字元。UCS-4是更大而尚未填充完全的31位元字元集,加上恆為0的首位,共需佔據32位元,即4位元組。理論上最多能表示231個字元,完全可以涵蓋一切語言所用的符號。
基本多文種平面的字元的編碼為U+hhhh,其中每個h代表一個十六進制數字,與UCS-2編碼完全相同。而其對應的4位元組UCS-4編碼後兩個位元組一致,前兩個位元組則所有位均為0。
實現方式
Unicode的實現方式不同於編碼方式。一個字元的Unicode編碼確定。但是在實際傳輸過程中,由於不同系統平台的設計不一定一致,以及出於節省空間的目的,對Unicode編碼的實現方式有所不同。Unicode的實現方式稱為Unicode轉換格式(Unicode Transformation Format,簡稱為UTF)。
例如,如果一個僅包含基本7位ASCII字元的Unicode檔案,如果每個字元都使用2位元組的原Unicode編碼傳輸,其第一位元組的8位元始終為0。這就造成了比較大的浪費。對於這種情況,可以使用UTF-8編碼,這是變長編碼,它將基本7位ASCII字元仍用7位編碼表示,佔用一個位元組(首位補0)。而遇到與其他Unicode字元混合的情況,將按一定演算法轉換,每個字元使用1-3個位元組編碼,並利用首位為0或1辨識。這樣對以7位ASCII字元為主的西文文件就大幅節省了編碼長度(具體方案參見UTF-8)。類似的,對未來會出現的需要4個位元組的輔助平面字元和其他UCS-4擴充字元,2位元組編碼的UTF-16也需要通過一定的演算法轉換。
再如,如果直接使用與Unicode編碼一致(僅限於BMP字元)的UTF-16編碼,由於每個字元佔用了兩個位元組,在麥金塔電腦(Mac)機和個人電腦上,對位元組順序的理解不一致。這時同一位元組流可能會解釋為不同內容,如某字元為十六進制編碼4E59,按兩個位元組拆分為4E和59,在Mac上讀取時是從低位元組開始,那麼在Mac OS會認為此4E59編碼為594E,找到的字元為「奎」,而在Windows上從高位元組開始讀取,則編碼為U+4E59的字元為「乙」。就是說在Windows下以UTF-16編碼儲存一個字元「乙」,在Mac OS環境下開啟會顯示成「奎」。此類情況說明UTF-16的編碼順序若不加以人為定義就可能發生混淆,於是在UTF-16編碼實現方式中使用了大端序(Big-Endian,簡寫為UTF-16 BE)、小端序(Little-Endian,簡寫為UTF-16 LE)的概念,以及可附加的位元組順序記號解決方案,目前在個人電腦上的Windows系統和Linux系統對於UTF-16編碼預設使用UTF-16 LE。(具體方案參見UTF-16)
此外Unicode的實現方式還包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等,這些實現方式有些僅在一定的國家和地區使用,有些則屬於未來的規劃方式。目前通用的實現方式是UTF-16小端序(LE)、UTF-16大端序(BE)和UTF-8。在微軟公司Windows XP附帶的記事本(Notepad)中,「另存為」對話方塊可以選擇的四種編碼方式除去非Unicode編碼的ANSI(對於英文系統即ASCII編碼,中文系統則為GB2312或Big5編碼)外,其餘三種為「Unicode」(對應UTF-16 LE)、「Unicode big endian」(對應UTF-16 BE)和「UTF-8」。
目前輔助平面的工作主要集中在第二和第三平面的中日韓統一表意文字,因此包括GBK、GB18030、Big5等簡體中文、繁體中文、日文、韓文以及越南喃字的各種編碼與Unicode的協調性受重點關注。考慮到Unicode最終要涵蓋所有的字元。從某種意義而言,這些編碼方式也可視作Unicode的出現於其之前的既成事實的實現方式,如同ASCII及其擴充Latin-1一樣,後兩者的字元在16位元Unicode編碼空間中的編碼第一位元組各位全為0,第二位元組編碼與原編碼完全一致。但上述東亞語言編碼與Unicode編碼的對應關係要複雜得多。
Unicode字元平面對映
Unicode 將編碼空間分成 17 個平面,以 0 到 16 編號。
第 0 平面(或者說基本多文種平面)中的碼點,都可以用一個 UTF-16 單位來編碼,或者以 UTF-8 來編碼的話,會使用一、二或三個位元組。而第 1 到 16 平面(或稱輔助平面)中的碼點,UTF-16 會以代理對的方式來使用,而 UTF-8 則會編碼成 4 個位元組。
在每個平面中,會先將相關的字元集結為區段的形式。雖然區段可以是任意大小,但會以 16 個碼點的倍數,且通常是 128 個碼點的倍數。而一份文稿中使用到的區段,可能會散佈在多個區段中。
非Unicode環境
在非Unicode環境下,由於不同國家和地區採用的字元集不一致,很可能出現無法正常顯示所有字元的情況。微軟公司使用了頁碼(Codepage)轉換表的技術來過渡性地部分解決這一問題,即通過指定的轉換表將非Unicode的字元編碼轉換為同一字元對應的系統內部使用的Unicode編碼。可以在「語言與區域設置」中選擇一個頁碼作為非Unicode編碼所採用的預設編碼方式,如936為簡體中文GB碼,950為繁體中文Big5(皆指PC上使用的)。在這種情況下,一些非英語的歐洲語言編寫的軟件和文件很可能出現亂碼。而將頁碼設置為相應語言中文處理又會出現問題,這一情況無法避免。只有完全採用統一編碼才能徹底解決這些問題,但目前尚無法做到這一點。
頁碼技術現在廣泛為各種平台所採用。UTF-7的頁碼是65000,UTF-8的頁碼是65001。
XML和Unicode
XML及其子集XHTML採用UTF-8作為標準字元集,理論上我們可以在各種支援XML標準的瀏覽器上顯示任何地區文字的網頁,只要電腦本身安裝有合適的字型即可。可以利用&#
nnn;
的格式顯示特定的字元。nnn代表該字元的十進制Unicode代碼。如果採用十六進制代碼,在編碼之前加上x
字元即可。但部分舊版本的瀏覽器可能無法辨識十六進制代碼。
過去電腦編碼的8位元標準,使每個國家都只按國家使用的字元而編定各自的編碼系統;而對於部份字元系統比較複雜的語言,如越南語,又或者東亞國家的大型字元集,都不能在8位元的環境下正常顯示。
只是最近才有在文字中對十六進制的支援,那麼舊版本的瀏覽器顯示那些字元或許可能有問題——大概首先會遇到的問題只是在對於大於8位元Unicode字元的顯示。解決這個問題的普遍做法仍然是將其中的十六進制碼轉換成一個十進制碼(例如:♠
用♠
代替♠
)。
也有一些字元集標準將一些常用的標誌存放在字元內碼外面,那麼你可能使用像—
這樣的文字標誌來表示一個長劃(—)的情況,即使它的字元內碼已經使用,這些標準也不包含那個字元。
然而部分由於Unicode版本發展原因,很多瀏覽器只能顯示UCS-2完整字元集,也即現在使用的Unicode版本中的一個小子集。下表可以檢驗您的瀏覽器如何顯示各種Unicode代碼:
代碼 | 字元標準名稱(英語) | 在瀏覽器上的顯示 |
---|---|---|
A |
大寫拉丁字母「A」 | A |
ß |
小寫拉丁字母「Sharp S」 | ß |
þ |
小寫拉丁字母「Thorn」 | þ |
Δ |
大寫希臘字母「Delta」 | Δ |
Й |
大寫斯拉夫字母「Short I」 | Й |
ק |
希伯來字母「Qof」 | ק |
م |
阿拉伯字母「Meem」 | م |
๗ |
泰文數字7 | ๗ |
ቐ |
埃塞俄比亞音節文字「Qha」 | ቐ |
あ |
日語平假名「A」 | あ |
ア |
日語片假名「A」 | ア |
叶 |
簡體漢字「叶」 | 叶 |
葉 |
繁體漢字「葉」 | 葉 |
엽 |
韓國音節文字「Yeop」 | 엽 |
一些多語言支援的網頁瀏覽器,比如Microsoft Windows系統的Internet Explorer 5.5及以上版本,以及跨平台的瀏覽器Mozilla/Netscape 6,可以在安裝時根據需要動態地使用相應的字元集,預先安裝了合適的語言套件,就可以同時顯示頁面上的各種Unicode字元。Internet Explorer 5.5還提出用戶可以在需要新字型時,即裝即用。另外的瀏覽器如Netscape Navigator 4.77,則只能顯示跟頁面編碼相應字元集中的文字。當你使用後一種瀏覽器時,你不大可能預先安裝所有的字型,即使有了字型,瀏覽器也不一定能將這些字型完全應用起來。可能遇到的情況是,這種瀏覽器只能夠顯示部分文字,因為它們是按照標準編碼,儘管理論上在相容的系統中,只要有了相應的Code2000字型,就可以正確顯示。一種變通的辦法,是將某些少見的字元,通過「名稱實體參照」的方式來使用。
輸入方法
不同的作業系統,各有直接輸入Unicode字元的方法:
- 基於X Window System的Linux系統,如Ubuntu的Gnome Terminal,首先按下Ctrl+Shift+U,然後輸入16進制Unicode數,如interpunct間隔符輸入00b7,最後按空格鍵;
- Microsoft Windows系統,按下Alt+0183表示interpunct間隔符。
在SGML、HTML、XML的文字中,使用字元值參照或字元實體參照表示一個Unicode字元。
中文輸入法
截至2011年10月,可以使用微軟拼音2003或2007版本、倉頡輸入法第三代第五代第六代版本、鄭碼Unicode版本、海峰五筆9.3版本、新注音輸入法和VimIM輸入。
- 微軟拼音在輸入法啟動狀態下,單擊語言欄上的「功能選單」按鈕,指向「輔助輸入法」即可發現「Unicode碼輸入方式」,利用它可以直接輸入Unicode相應十六進制值的方式輸入相應文字。例如中文「胥」輸入「5066」,朝鮮文字「셅」輸入「c145」(不需要在前面加0x或x)。新版本下也可以輸入VUC(大小寫不敏感)再輸入編碼。
- 倉頡輸入法已爲Unicode漢字、類漢字編碼,可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入Unicode內的中日韓漢字及韓文。以倉頡輸入法第五代爲例,例如漢字「㗎」輸入「口大口木」,漢字「胥」輸入「弓人月」,漢字「㿱」輸入「手中木竹水」,朝鮮文字「닮」輸入「尸卜尸女口」。由於朱邦復工作室使用的倉頡系統收字比Unicode還多,目前Unicode既有漢字皆已有倉頡編碼。
- 鄭碼已爲Unicode漢字、類漢字編碼,可以在鄭碼輸入法方式下通過鄭碼字碼輸入方式輸入Unicode內的中日韓漢字及韓文。例如漢字「㗎」輸入「JYJF」,漢字「胥」輸入「XIQ」,漢字「㿱」輸入「DPXI」,朝鮮文字「길」輸入「XIYY」。
- 海峰五筆此輸入法已經直接支援透過五筆碼輸入方式輸入Unicode內的任意中日韓漢字,但無法使用鍵入Unicode碼的方式輸入。例如漢字(Unicode部分)「㗎」為「keks」,CJK擴充B區的「𣿱」為「iyho」和CJK擴充C區的「𫆦」為「muih」。
- 新注音輸入法在輸入法啟動狀態時,打入鍵盤上的「多功能前導字元鍵」(即通用鍵盤上之「`」),第一次使用會彈出說明。輸入Unicode字元「胥」則是在鍵盤上鍵入「`U5066」。而韓語中的「셅」,則輸入「`UC145」。而要輸入日語自製漢字「峠」,則是「`U5CE0」。
- VimIM在Vim環境中,可以直接鍵入十進制或十六進制Unicode碼。既不需要啟動輸入法,也不需要碼表。
- 嘸蝦米輸入法,支援Unicode,以26個英文字母為組字按鍵,可直接輸入符號、日文漢字及平假名、片假名,但漢字部份一般只支援基本繁體中文、簡體中文,擴充A區的漢字要另行擴充編碼才能輸入,擴充B區的漢字尚無編碼。
日文輸入法
使用Microsoft IME 2007,可以在IME Pad找到Unicode的點擊表。點擊字元即可輸入。選擇字型可以預覽字元效果。
其他
除了輸入法外,作業系統也會提供另外幾種方法輸入Unicode。像是Windows 2000之後的Windows系統就提供可點擊的字元對映表。又或者在Microsoft Word下,按下Alt鍵不放,使用數字鍵盤輸入0和某個字元的Unicode編碼(十進制),再鬆開Alt鍵即可得到該字元,如Alt033865會得到Unicode字元葉
。另外,按AltX組合鍵,Microsoft Word也會將游標前面的字元同其十六進制的四位Unicode編碼互相轉換。
註釋
- ^ 下列的總計數是圖形、格式及控制字元的總數目,即不計算私人使用區、非字元及代理字元在內。
參考文獻
- ^ About Unicode Terminology. unicode.org. [2021-03-25]. (原始內容存檔於2021-04-21).
- ^ 陳冰. Flash第一步 ActionScript编程篇. 清華大學出版社有限公司. 2006: 373. ISBN 9787302124207.
- ^ The Unicode Standard 第五版. Addison-Wesley Professional. 2007. ISBN 0321480910.
- ^ 4.0 4.1 Announcing The Unicode® Standard, Version 16.0. blog.unicode.org. [2024-09-14]. (原始內容存檔於2024-09-14).
- ^ 5.0 5.1 Technical Introduction. www.unicode.org. [2021-10-03]. (原始內容存檔於2022-04-23).
- ^ FAQ - Unicode and ISO 10646. www.unicode.org. [2021-10-03]. (原始內容存檔於2021-12-14).
- ^ Unicode. [2004-04-02]. (原始內容存檔於2018-03-19).
- ^ BETA Unicode 14.0.0. www.unicode.org. [2021-09-20]. (原始內容存檔於2021-10-23).
- ^ Unicode, Inc. Unicode 14.0 Delayed for 6 Months. [2020-06-12]. (原始內容存檔於2022-02-03).
- ^ Unicode Data 1.0.0. [2010-03-16]. (原始內容存檔於2012-06-30).
- ^ Unicode Data 1.0.1. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data 1995. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-2.0.14. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-2.1.2. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-3.0.0. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-3.1.0. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-3.2.0. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data-4.0.0. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data. [2010-03-16]. (原始內容存檔於2022-03-21).
- ^ Unicode Data 5.0.0. [2010-03-17]. (原始內容存檔於2022-03-21).
- ^ Unicode Data 5.1.0. [2010-03-17]. (原始內容存檔於2022-04-19).
- ^ Unicode Data 5.2.0. [2010-03-17]. (原始內容存檔於2022-03-21).
- ^ Unicode Data 6.0.0. [2010-10-11]. (原始內容存檔於2022-03-21).
- ^ Unicode Data 6.1.0. [2012-01-31]. (原始內容存檔於2022-03-26).
- ^ Unicode Data 6.2.0. [2012-09-26]. (原始內容存檔於2022-03-26).
- ^ Unicode Data 6.3.0. [2013-09-30]. (原始內容存檔於2022-04-07).
- ^ Unicode Data 7.0.0. [2014-06-15]. (原始內容存檔於2022-04-07).
- ^ Unicode 8.0.0. Unicode Consortium. [2015-06-17]. (原始內容存檔於2016-06-28).
- ^ Unicode Data 8.0.0. [2015-06-17]. (原始內容存檔於2021-03-24).
- ^ Unicode 9.0.0. Unicode Consortium. [2016-06-21]. (原始內容存檔於2020-02-28).
- ^ Unicode Data 9.0.0. [2016-06-21]. (原始內容存檔於2022-04-07).
- ^ Unicode 10.0.0. Unicode Consortium. [2017-06-20]. (原始內容存檔於2017-06-20).
- ^ Unicode Data 10.0.0. [2017-06-20]. (原始內容存檔於2021-11-21).
- ^ Unicode 11.0.0. Unicode Consortium. [2018-06-06]. (原始內容存檔於2021-03-30).
- ^ Unicode Data 11.0.0. [2018-06-06]. (原始內容存檔於2022-04-08).
- ^ Unicode 12.0.0. Unicode Consortium. [2019-03-13]. (原始內容存檔於2021-03-30).
- ^ Unicode Data 12.0.0. [2019-03-13]. (原始內容存檔於2022-04-20).
- ^ Unicode Version 12.1 released in support of the Reiwa Era. blog.unicode.org. [2019-05-07]. (原始內容存檔於2019-05-07).
- ^ The Unicode Standard, Version 13.0– Core Specification Appendix C (PDF). Unicode Consortium. [2020-03-11]. (原始內容 (PDF)存檔於2021-08-05).
- ^ Announcing The Unicode® Standard, Version 13.0. blog.unicode.org. [2020-03-11]. (原始內容存檔於2022-04-26).
- ^ Announcing The Unicode® Standard, Version 14.0. blog.unicode.org. [2022-09-15]. (原始內容存檔於2022-09-15).
- ^ Announcing The Unicode® Standard, Version 15.0. blog.unicode.org. [2022-09-15]. (原始內容存檔於2023-01-07).
- ^ Announcing The Unicode® Standard, Version 15.1. blog.unicode.org. [2023-09-12]. (原始內容存檔於2023-01-07).
- ^ The Unicode Standard, Version 6.2, 2012 Unicode, Inc. Chapter 2 General Structure 2.2 Unicode Design Principles (PDF). [2017-04-18]. (原始內容存檔 (PDF)於2022-04-01).
參閲
- Wikipedia:Unicode擴充漢字
- Unicode字元平面對映
- Unicode聯盟
- Unicode字元列表
- Unicode數字
- 中日韓統一表意文字(CJK/Unihan)
- 通用字符集
- 寬字元
- UTF-8
- 萬國音標(表示語言讀音)
外部連結
- Unicode official site(Unicode官方網站)
- (頁面存檔備份,存於互聯網檔案館)(Unicode聯盟)
- Unicode 7.0.0 (頁面存檔備份,存於互聯網檔案館)
- DecodeUnicode - Unicode WIKI,提供Unicode 6.0全部109242個字的GIF字型預覽
- Alan Wood's Unicode Resources (頁面存檔備份,存於互聯網檔案館)
- The International Phonetic Alphabet in Unicode(國際音標的Unicode編碼)
- CJK Compatibility Ideographs (頁面存檔備份,存於互聯網檔案館)(中日韓相容表意文字)
- Unicode character charts(頁面存檔備份,存於互聯網檔案館)(Unicode字元對映表)
- UTF-8和Unicode的常見問題
- UTF-8 Codepage (頁面存檔備份,存於互聯網檔案館)(UTF-8代碼頁)
- Unicode 11.0 (頁面存檔備份,存於互聯網檔案館)(Unicode 11.0字元匯總,PDF)