預組字元

預組字元 (precomposed character,或者稱composite characterdecomposable character)是Unicode字元集中的實體,定義為一個或多字元序列。預組字元可以表示一個字母與一個附加符號, 例如é (小寫拉丁字母e帶一個尖音符). 技術上, é (U+00E9)是一個字元,可以分解為Unicode等效字串e (U+0065)與尖音符(U+0301). 類似地, 二合字是它們的組成的字母或字位的預組字元.

下述瑞典語的姓氏Åström可以有兩種Unicode表示方式,第一種採用預組字元Å (U+00C5)與ö (U+00F6), 第二種採用可分解基本字元A (U+0041)與上圓圈 (附加符號) (U+030A) 以及o (U+006F)與分音符 (U+0308).

  1. Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

下述例子中,原始印歐語單詞"狗":

  1. ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

漢字一般類似於預組字元,因為它們可以分解為組成的筆劃並且可以用Unicode的表意文字描述字元

參見

參考文獻

外部連結