表意文字描述字符

表意文字描述字符(英语:Ideographic Description Character,IDC)是一块收录描述表意文字(如汉字)结构的符号Unicode区段,其中部分描述符号编码于其他区块。

表意文字描述字符
Ideographic Description Characters
范围U+2FF0..U+2FFF
(16个码位)
平面基本多文种平面BMP
文字通用英语Script (Unicode)#Special script property values
已分配16个码位
未分配0个保留码位
来源标准GBK
统一码版本历史
3.012 (+12)
15.116 (+4)
注释[1][2]

目前大部分编码包含Unicode,处理汉字编码时大致是先搜集汉字,给予每个汉字一个数字编码。然而,汉字数量庞大,字集往往不完全;再加上汉字本身是开放组合,汉字的用户很可能自造新字,不可能有一个可以搜集到所有汉字的字集,所以用这些字符描述某“字”如何以较简单的部件组合起来。

码表

表意文字描述字符
Ideographic Description Characters
[1][2]
Unicode 联盟官方码表(PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+2FFx ⿿
注释
1. ^ 依据 Unicode 15.1

表意文字描述序列

表意文字描述序列(英语:Ideographic Description Sequence,IDS)是Unicode标准定义的汉字结构描述语法,描述序列由描述字符与两个以上特定字符(主要为汉字)组合而成,表示汉字的抽象结构。

Unicode定义了16种组合字符:

编码 字符 意义 例字 序列 例字 序列
U+2FF0 两部件由左至右组成 ⿰木目 𠁢 ⿰丨㇍
U+2FF1 两部件由上至下组成 ⿱木口 𠚤 ⿱𠂊丶
U+2FF2 三部件由左至右组成 ⿲彳氵亍 𠂗 ⿲丿夕乚
U+2FF3 三部件由上至下组成 ⿳亠口小 𠋑 ⿳亼目口
U+2FF4 两部件由外而内组成 ⿴囗口 𠀬 ⿴㐁人
U+2FF5 三面包围,下方开口 ⿵几皇 𧓉 ⿵齊虫
U+2FF6 三面包围,上方开口 ⿶凵㐅 ⿶乂丶
U+2FF7 三面包围,右方开口 ⿷匚斤 𧆬 ⿷虎九
U+2FF8 两面包围,两部件由左上至右下组成 ⿸疒丙 𤆯 ⿸耂火
U+2FF9 两面包围,两部件由右上至左下组成 ⿹戈廾 𢧌 ⿹或壬
U+2FFA 两面包围,两部件由左下至右上组成 ⿺走召 𥘶 ⿺礼分
U+2FFB 两部件重叠 ⿻工从 𣏃 ⿻木⿻コ一
U+2FFC 三面包围,左方开口 ⿼叉丶 𬺹 ⿼コ二
U+2FFD 两面包围,两部件由右下至左上组成 ⿽水丶 ⿽⺀十
U+2FFE 水平翻转 ⿾卍 𣥄 ⿾正
U+2FFF ⿿ 旋转 𠕄 ⿿凹 𠄔 ⿿予

另有两个描述符号并不在此区块内:

编码 字符 区块 意义 例字 序列 例字 序列
U+303E 中日韩符号和标点 形似但不相等 㬵 (U+3B35) 〾胶 (U+80F6)[3] 𫜵 〾爫[4]
U+31EF 中日韩笔画 减去笔画 ㇯兵丶 𧰨 ㇯豕一

还有一个字符“⬚”,编码是U+2B1A,虽然名称只是“dotted square(点状虚线的正方形)”,但也常配合表意文字描述字符使用,指无法分割的整体字。

IDS的运算方式是前缀表示法,运算符在前,对应数量的操作数在后。这种方式不需使用括号等字符辅助即可无歧义地表示运算顺序。

统一码标准中,表意文字描述序列之定义如下:[5]

IDS := 漢字 | 部首 | 中日韓筆畫 | 私人造字區 | U+FF1F | IDS二元運算子 IDS IDS | IDS三元運算子 IDS IDS IDS
IDS二元運算子 := U+2FF0 | U+2FF1 | U+2FF4 | U+2FF5 | U+2FF6 | U+2FF7 | U+2FF8 | U+2FF9 | U+2FFA | U+2FFB
IDS三元運算子 := U+2FF2 | U+2FF3

按此,合规范的IDS必须由汉字、中日韩部首字符、中日韩笔画字符(U+31C0-U+31EF)、私人造字、全角问号字符(U+FF1F),以IDC连接而成。

限制

  • Unicode无定义汉字的唯一表述方式,依现行提案一汉字可用多种IDS表达,如“巫”可表示为“⿻工从”或“⿻工⿰人人”。
  • IDS主要目的在于表达汉字的抽象结构,而非像组合字符一样用于动态组字。现实绘制合体字字形时须考量许多复杂要素,光用IDS不足以绘出符合一般要求的合成字,例如合体字上下、左右比例往往并非1:1,而是按二部件的实际外形调整;左上-右下、三方包围等组合字的比例计算则更复杂;上下交叠的两部件也需要依赖对汉字的一般认识才能正确解读,例如“⿻工从”是将两个“人”放到“工”的左右两开口里,而非简单地将“工”和“从”上下叠合。

历史

以下文件记录了本区段中出现的字符的提议及定稿。

另见

参考文献

  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始内容存档于2017-09-25). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始内容存档于2016-06-29). 
  3. ^ 「㬵(U+3B35)」和「胶(U+80F6)」为什么在《康熙字典》收录了两次? - 知乎. www.zhihu.com. [2023-09-21]. 
  4. ^ 基本集扩充字考(五・完结)附扩充块新增字考. 知乎专栏. [2023-09-21] (中文). 
  5. ^ The Unicode StandardVersion 6.0 – Core Specification (PDF). [2020-02-10]. (原始内容存档 (PDF)于2019-11-22). 

外部链接