香港增補字符集

香港增補字符集Hong Kong Supplementary Character Set,簡稱HKSCS)是香港政府基於繁體中文電腦操作環境中最流行的大五碼(Big5)之上擴展的字元集標準,是現時香港的中文資訊交換內碼標準。

字元集所收羅的字主要包括香港的地名、人名用漢字、粵語漢字日本漢字異體字,也有小部份簡體字;除此之外亦把倚天中文系統收錄的日語平假名片假名俄語字母包括在內。此字元集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版為HKSCS-2016,收錄5033字元。

負責機構

負責整套字元集管理的為中文界面諮詢委員會(Chinese Language Interface Advisory Committee,CLIAC),簡稱「中諮會」[1]。1999年5月由前資訊科技署成立,現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩工作小組:「中文電腦用字工作小組」、「中文資訊科技工作小組」。前者審核待增收字元,納入和編配碼位等工作;後者解決技術問題及與國際標準ISO/IEC 10646(簡稱ISO 10646)接軌等工作。2015年6月1日,兩小組合併爲「中文界面諮詢委員會工作小組」。各組成員來自學術界、語言學界、出版界和資訊科技界等。

歷史

1980年代中期,台灣中文電腦通行內碼為Big5碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也用繁體中文,故也採用Big5碼。可是Big5碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,香港使用者經常面對缺字問題。於是,香港政府各部門使用Big5的外字區,自行補上這些字,並在政府內部使用。同時,香港業界也指出本地需要一套標準字元集來作電子檔案來往,要求政府頒佈標準。到1995年,網際網路在香港起步,而政府也推出了自己的網站。個人電腦的中文系統雖然都用Big5碼,但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確字元。香港政府於是把內部使用有3000多字的Big5外字集標準造字檔公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字元,並把這套字命名為《政府通用字庫》(Government Common Character Set,簡稱GCCS)。

到了1999年9月,此字集增加到4000多字,並改為現名。後來的人則將這版本返稱爲「HKSCS-1999」。自其公佈以後,香港增補字符集又經歷多次修訂,版本歷史如下:[2]

版本 收錄字元 公佈時間 備注
GCCS 3049 1995年
HKSCS-1999 4702 1999年9月
HKSCS-2001 4818 2001年12月
HKSCS-2004 4941 2005年5月
HKSCS-2004+增收字元 4969 2006年11月
HKSCS-2004+增收字元 5000 2008年2月
HKSCS-2008 5009 2009年12月
HKSCS-2016 5033[3] 2017年5月 不再編配Big5碼位

除了增補字元,中諮會亦於2002年公佈了《香港電腦漢字楷體字形參考指引》和《香港電腦漢字宋體(印刷體)字形參考指引》供業界參考[4],指引內容爲以部件為基礎的字形參考寫法,希望能推動業界開發符合香港小學及初中教育慣常書寫方式的漢字字型產品。

2016年,中諮會又公佈《香港電腦漢字參考字形[5],於字元層面提供完整的電腦漢字教育參考寫法,具體說明適用於香港的字形形狀,比較了香港參考字形與台灣業界習慣和台灣教育部寫法的異同;並涵蓋HKSCS-2016和Big5碼字元集所有漢字,補充2002年兩份指引的不足之處。檔案的研訂目標是希望能清晰顯示ISO/IEC 10646國際編碼標準中H-列的字形,方便字型生產商開發有關產品。

中諮會之後在2018、2019和2021年繼續修訂《香港增補字符集》,分別增收三漢字(U+5C83 U+2D25D 𭉝 U+2BB37 𫬷 )、修改U+22ACF 𢫏 的字形、調整U+270F0 𧃰 的碼位。[6]

字元分類

HKSCS-2004版本共4500漢字字元,其中3353字可在《漢語大字典》等大型字典查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。

各類符號共441個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

香港增補字符集在此版本起才有畫數、部首、粵音等資料給使用者參考,還說明方便檢索,而非作為規範標準(漢字的部首在不同的字典中,歸部也不盡相同)。

和GCCS的關係

  • 註:各操作系統使用的字體不盡相同,下表列出的字元未必符合期望的結果。
已經與Unicode其他字元統一的字元
Unicode(PUA) 字元 Unicode(PUA) 字元 Unicode(PUA) 字元
U+E01F U+E026 U+E05B
U+E063 U+E073   U+E0A5
U+E0F3   U+E12E   U+E134
U+E149 U+E166   U+E191
U+E1BA U+E1C9   U+E22C  
U+E22D   U+E230 U+E266 煮󠄁
U+E286 猪󠄀 U+E2A3   U+E2BC
U+E2EF U+E33A U+E340
U+E34F U+E35A U+E363
U+E37C 者󠄁 U+E37F   U+E3C5
U+E3D7 U+E3DC U+E417  
U+E418 U+E44A U+E478 都󠄁
U+E485 U+E4C5   U+E4DA 響󠄂
U+E545   U+E589 U+E5D2
U+E5D3 U+E5D4 U+E5D5
U+E5EB   U+E5F4 U+E6C6
U+E727   U+E7D3 U+E7FD  
U+E884   U+E893 U+EB40
U+EB42 U+EB45 U+EB6E
U+EB86 U+EB94 U+EB9E  
U+EBA9 U+EBBA U+EBC9
U+EBCF U+EBD2 U+EBDE  
U+EC01   U+EC02 𥞊 U+EC15
U+EC5B U+EC5E U+ECA6
U+ED28 恢󠄀 U+ED6E   U+ED7C  
U+ED9E   U+EDA4 U+EDE7
U+EDF4   U+EE3E U+EE52
U+EE8E U+EE98 U+EE9D  
從大型字典中不能驗證而且無法與Unicode對應的字元
Unicode(PUA) 字元 Unicode(PUA) 字元 Unicode(PUA) 字元
U+ED2B   U+ED43   U+ED73  
U+ED8C   U+EDC9   U+EDCD 𫑳
U+EDDC   U+EDE4   U+EDF6  
U+EE02   U+EE06   U+EE0B  
U+EE2F   U+EE32 𪹧 U+EE35  
U+EE3D 𭼼 U+EE4D   U+EE5E  
U+EE66   U+EE68   U+EE8C  
U+EE9A  

如上表,第一部分有部分字元是重量單位,例如兙、兛、兝、兞等,在Big5中是以符號形式出現,意即該等字元在Big5中並非視為漢字,所以香港政府另行在Big5造字區安放這些字,造成重複;另外,有些字元在收錄時只與Big5正確字存在細微字形差異,例如「輋」上方一字從「山」而另一字從「屮」,「靜」左下方一字從「月」而另一字從「円」。研究這些字元可以從舊造字檔著手,因為現時在Windows通行的「細明體_HKSCS」字體已經標準化

編碼

和Big5的關係

香港增補字符集當初因為是補充Big5的收字不足,使用其外字區而發展的,所以受制於Big5的編碼架構,外字總數最多只能到6217(每區塊157字,有39區塊半)。除去已用碼位,剩下千餘碼位,其中有部分會保留給使用者造字。

早期的倚天中文系統國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字,也作幽靈漢字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進兩碼位。又有同一字有系統區及造字區兩碼位,有些聯綿詞只收其一不收其二;這問題帶到了政府通用字庫和香港增補字符集中,字集要反向相容而跳過了一些碼位。

Big5原來的編碼只有漢字、標點、注音符號等字元及少數圖形,後來經過台灣廠商增收,多了7個「倚天字」(碁、銹、裏、墻、恒、粧、嫺)及日文假名,最後這批字元又收入香港增補字符集。

香港增補字符集所用的Big5的外字區分幾區段:

  • 「造字區一」(FA40—FEFE):早期的GCCS字元集已填滿這段。
  • 「造字區二」(C6A1—C8FE):倚天用了這段來放日文假名等符號。這些符號收納在HKSCS-1999年版。
  • 「造字區三」(8140—A0FE):香港增補字符集把這段開頭的(8140—84FE)保留給使用者,新增的字元只用其餘的碼位。
  • 「廠商造字區」(F9D6—F9FE):倚天用了這段來放「倚天字」及製表符號。這些符號亦在HKSCS-1999年版本將之全部收納。

可是一般提及HKSCS的檔案,包括來自香港政府的,都沒有註明HKSCS以外的一般繁體字編碼(即是Big5本身)使用哪版。Big5在2003年前就只有一版,不會混淆,但HKSCS-2004的檔案仍沒有指定Big5部份是2003年之後還是之前的版本,雖然到目前為止並沒有任何系統使用Big5-2003。

和ISO 10646/Unicode的關係

1995年的政府通用字庫本來是內部使用的,到1999年才成立中諮會專門去負責增收及審核字元的工作,並與ISO 10646接軌。中諮會的成員會把香港增補字符集交到ISO的表意文字小組中,盡量讓其所有字元納入國際標準。表意文字小組會定期開會審議漢字的收納等工作,成員是來自世界各地的專家。

香港字在Big5-HKSCS內的碼位,都能對應到ISO 10646中日韓漢字區段中的碼位,或Private Use Area(私人使用區,簡稱PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴充區內。將所有已納入的HKSCS字元搬到正式中日韓漢字擴充區段(非PUA區段)的工作在2005年完成,對應於ISO 10646:2003的第一修訂版,相應的Unicode版本為Unicode 4.1。

不過,因為目前流傳極多使用舊版HKSCS的系統產生出來的檔案,為了方便過渡,在HKSCS的定義中,在Unicode PUA所分配的字元位置會予以保留,不會給新加入而且未分配正式Unicode位置的字元使用。

字體提供

最初的香港字是由早期的台灣廠商(像倚天等)和使用者自行造字所得。大部份都不合標準和沒有流通,沒有沿用至今。後來,TrueType字型盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字庫的字體方面,因為HKSCS某些字和大陸GBK碼有衝突,廠商經常會因市場關係捨棄一些香港字。

香港政府的「數位21」網頁(詳見下面的外部連結)有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。

目前由商業主導的情況漸有改變,近況如下:

開放原始碼字體

文鼎科技在1999年釋出了四套字體(繁簡明體和楷書)給自由軟體界,但當中沒有香港字。後來高盛華(Arne Götje)發起計劃將繁簡體合併,稱之為CJK Unifonts。當中,Akar、Zunix等人在2004年末另外發起開源香港常用中文字體計劃,將香港字加入CJKUnifonts之內,到了2005年9月1日完成將HKSCS 2004加入CJKUnifonts的工作。目前UMingUKai已收錄在各大Linux發行版

商業字體

最早一套宣稱支援HKSCS的字體是華康「香港標準楷書」[7]及「香港標準宋體」[8],而最早一套宣稱支援HKSCS 2004的字體是華康「金蝶2006 H.K. Edition」[9],在2005年11月14日推出。後來文鼎、蒙納等字型公司亦陸續推出相應的字型產品。

增收字元

「中諮會」會讓各界申請新字元,不過要經過審核批准,才會給字元編配碼位。而使用者自造的字,可視乎需要加入,特別是一些人名地名等會經過網際網路傳送的字。另外,這些增收的字元不一定能夠收錄在Unicode之內,例如一些能夠表示成Unicode複合字元的字或符號,便不會收錄。

另外因為現在餘下的Big5相容碼位不多(2005年9月為止只剩487碼位未用),中文介面諮詢委員會已經在2008年3月31日停止為字元提供Big5碼位[10],並在之前盡量協助業界和一般使用者過渡至Unicode。

操作系統的支援

香港增補字符集開始時只有Windows版本的Big5碼,後來與ISO 10646接軌後,才開始在LinuxMac OS等系統中使用。理論上因為ISO 10646已收納香港增補字符集,任何支援ISO 10646的系統都可使用香港字。但實際上,許多舊的程式內部是使用UCS-2(每字佔2位元組)儲存字串,無法表示許多放在基本多文種平面(簡稱BMP)以外的所有香港字。只有使用UCS-4(每字佔4位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。

Windows

顯示和處理字元

根據Microsoft的網頁,在Windows Vista或以後的版本將不再支援HKSCS-2004的Big5擴展編碼(通常稱為Big5HKSCS),而只使用Unicode中的香港字支援。

至於HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援Windows 98、NT、2000和XP。可是安裝該套件和其他軟體(例如Office)需要有一定的次序,而且它和別的Big5外字集並不相容,必須先瀏覽有關檔案方可安裝。

輸入字元

Windows XP中,內建的倉頡輸入法可輸入已包括在Unicode 1.1版本內的香港字;新倉頡輸入法則不能。

Linux

顯示和處理字元

自從glibc頁面存檔備份,存於網際網路檔案館)在2000年加入香港字(同時包括Big5hkscs和unicode碼兩者的轉換表)的支援後,就幾乎沒有再更新過,其中的Big5部份更是來自年代久遠的Big5/Unicode轉換碼表,當中有不少錯誤之處,令一些檔案和網頁無論使用Big5還是Big5 HKSCS轉換至Unicode都會出現錯誤。暫時未有任何更新。相反地,如果單是使用Unicode作為系統編碼,處理香港字則沒有問題。

桌面環境方面,KDE 3.x桌面因為使用QT 3.x,而QT 3.x內部使用UCS-2儲存字元,因此KDE 3.x只能有限度地顯示少部份香港字。這情況期望在KDE 4.0解決。

GNOME沒有這方面的問題,只要是使用Unicode,在2004至2005年間就已經能夠顯示所有BMP以外的字元。

輸入字元

截至2007年3月,支援香港字集的開源輸入法有:SCIMOXIM;不支援的有:IIIMFgcin。但有些輸入法並非輸出Unicode中真正編配給香港字的碼位,而是一些造字區的碼位,例如SCIM中的倉頡五代輸入法便是這樣。

Mac OS

顯示和處理字元

Mac OS X 10.0至10.2版本支援的版本為HKSCS-1999。10.3、10.4、10.5及最新之10.6支援HKSCS-2001;10.4有部份HKSCS-2004新增字元,但編碼對應Unicode私人使用區;10.5及10.6有HKSCS-2004全部新增字元,但只有Unicode(4.1版本)編碼。

輸入字元

使用Mac OS X內建的中文輸入法即可,不屬Big5字集的字在選字區旁會有一綠色感嘆號[!]提示。

使用地區

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的(如處理常見但Big5未有收錄的人名用字,如「堃」和「喆」字;此外,台灣也有自己的一兩套外字集,如中國海字集)。而同樣使用粵語和繁體字的澳門也有使用這套字集,也許還有其他華語地區會使用。

澳門政府網站、澳廣視和很多澳門報紙網站已改用Unicode(UTF-8)編碼,因現在大部份系統已支援Unicode和內建相應字型,毋需額外安裝套件即可顯示澳門特有地名用字,如氹仔

衍生

日和字集

「日和字集」乃香港增補字符集採用Big5碼時期,香港人內木一郎和阿烈開發的True Type Eudc造字檔,以相容香港增補字符集為賣點,增補字集仍沒涵蓋的日語假名日本漢字日本國字,有細明體、標楷體、中黑體等配合Windows 95、98、NT等作業系統字型的字款,並附有倉頡、速成等輸入法作輔助,以及把字集文件轉換至日語編碼的轉碼器工具。

香港增補字符集完全過渡至Unicode編碼後,日和字集增補的字元基本上都已有Unicode編碼,作業系統字型能直接顯示,因此日和字集停止更新。

開源香港常用中文字體計劃

社會上有志願人士開始了開源香港常用中文字體計劃。以CJK UnifontsUMingUKai字型為基礎,增補香港增補字符集的所有字元。

評價

香港增補字符集一直需要和Big5碼相容,可說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港特區政府打算在2007年至2008年放棄它的Big5碼。如果系統使用Unicode編碼,用它反而較好。當今的趨勢是使用Unicode,它有足夠的字元,幾乎可以滿足文字學家字典專家的用字要求。但因為相容性的關係,要將整套系統由使用Big5碼轉換至Unicode頗費時,因此還會有人暫時不願意轉換。

增收原則更改

《香港增補字符集》自2008年3月31日起更改字元增收原則,新增的字元只會編配ISO 10646國際編碼標準內碼,不再編配大五碼內碼。政府資訊科技總監辦公室表示,全面採用ISO 10646國際編碼,可統一編碼標準,解決相容問題。ISO 10646國際編碼標準涵蓋各種主要語文的字元,包括繁體及簡體中文字,提供統一的字元編碼標準,方便世界各地的電腦使用者。《香港增補字符集》3月31日起更改字元增收原則,在此之前獲編配的字元,則不受影響。政府1999年公佈《香港增補字符集》,由中文介面諮詢委員會負責管理,收納適用於香港的中文電腦用字,以解決電子通訊出現亂碼或字元不能正確地顯示等問題。

參看

注釋

  1. ^ 「中文界面諮詢委員會」網站. [2017-07-17]. (原始內容存檔於2017-03-07). 頁面存檔備份,存於網際網路檔案館
  2. ^ 有關《香港增補字符集》的問題及解答. [2017-07-17]. (原始內容存檔於2017-06-28). 頁面存檔備份,存於網際網路檔案館
  3. ^ 存档副本. [2019-07-09]. (原始內容存檔於2019-07-09). 頁面存檔備份,存於網際網路檔案館
  4. ^ 一套以部件為基礎的字形參考指引. [2017-07-17]. (原始內容存檔於2017-06-07). 頁面存檔備份,存於網際網路檔案館
  5. ^ 香港電腦漢字參考字形. [2017-07-17]. (原始內容存檔於2020-03-28). 頁面存檔備份,存於網際網路檔案館
  6. ^ 共通中文界面網站. www.ccli.gov.hk. [2022-04-15]. (原始內容存檔於2022-06-20). 頁面存檔備份,存於網際網路檔案館
  7. ^ 香港標準楷書全通集. www.rnb.com.hk. [2010-01-07]. (原始內容存檔於2009-03-12). 頁面存檔備份,存於網際網路檔案館
  8. ^ 華康標準宋體. www.rnb.com.hk. [2010-01-07]. (原始內容存檔於2009-07-22). 頁面存檔備份,存於網際網路檔案館
  9. ^ [1]頁面存檔備份,存於網際網路檔案館
  10. ^ [2]

外部連結

字元和編碼

編碼表

字體

參考書籍、文章