汉字描述语言

汉字描述语言是指可以完整且准确地描述汉字字符和信息的计算机语言,它们包含了字符的组成、(基本和复杂的)笔画、顺序以及位置,旨在克服在使用位图来描述字形时所遇到的信息缺乏。其所包含的消息可以来识别字符(统一码通用字符集统一为一个码位)的异体字,或一些统一码和通用字符集尚未收录的罕见字。

它们的工作,大多是基于楷书宋体,来提供字符的内部结构,因而可以借由索引字符的内部结构和相似字符,从而更容易地查找字符。

字形描述语言

 
字符描述语言中,各层级的部件

字形描述语言(英语:Character Description Language,简称:CDL),或称字描语,是基于XML字体技术,由毕晓普(英语:Tom Bishop)和 曲理查(英语:Richard Cook) 为文林研究所所共同创建。其目的在描述任何CJK 字符,但可用于描述任何字形

这种基于 XML 的宣告式语言定义了每个组件(字形的一个子单元,类似于部首,但不一定具有真正部首的语义意义)的笔顺,以及使用先前定义的组件所构建更复杂的字符。除了用作构建组件之外,这些组件中的许多组件本身就是字符。

背景看起来像一个每边128 像素的正方形。在这个背景下:

  1. 使用可缩放矢量图形,可绘制 50 个笔画。
  2. 一个基本组件是通过调用数个笔画来组成的。在此组件中,每个笔画都由其左下角和右上角描述。可以进行转换(缩小、放大等) 。有 1,000 多个基本组件。
  3. 一个字符是通过调用几个组件组成的。在这个字符中,每个组件都由其左下角和右上角描述。为了使组件适合汉字矩形块的适当部分,在将部分嵌入构建方块时,可以转换(如:水平、重直或放大、缩小)。

因此,一组少于 50 个笔画[1]允许构建一组大约 1,000 个组件[2] ,这些组件又可以嵌入到数万个字符的描述中。 [2] 50 个基本笔画之一的形状变化隐含在嵌入该笔画的每个字符中。同样,对组件的更改隐式应用于其组合使用该组件的每个和所有角色。 [2]

汤姆·毕晓普和 R. Cook 解释如下:

字符的笔划数通常跟其它字符的笔划数是有关的。大部分字符是以多个部件所构建。只要知道了每个部件的笔划数,那总笔划数只是单纯地部件笔划数相加。因此,如果有个标准定义了千多个字符的笔划,它也定义了成千上万个其它字符。[3]

截至2020年 (2020-Missing required parameter 1=month!),透过字描语包含了近 10 万个字符描述,可完整支持统一码 7.0。[3]

HanGlyph

用于在文档中提供缺失的罕见字(即外字问题)的汉字描述语言。 [4]文档可以包含缺失字符的标记,这将自动触发生成小字体以提供字符。语言本身是一个简单的后缀符号,描述了笔画和组合它们的方式。原型软件使用Metapost来描给字符并将它们嵌入到LaTeX文档中。该语言由 Wai Wong 于 1997 年提出 [5],2003年的 TeX用户会议上,则有关于实现的论文。 [6] [7]

表意文字描述序列

统一码第 12 章定义了“表意文字描述序列”(IDS) 的语法[8],旨在用于描述标准中未包含的字符,即根据具有代码点的组件组合。 U+2FF0 到 U+2FFB 范围内的十二个特殊字符充当前缀运算符,以组合其他字符或序列以形成更大的字符。

统一码中的表意文字描述字符
特点 统一码字符编号 完整的统一码名称
U+2FF0 Ideographic description character left to right

表意文字字符用于左右结构

U+2FF1 Ideographic description character above to below

表意文字字符用于上下结构

U+2FF2 Ideographic description character left to middle and right

表意文字字符用于左中右结构

U+2FF3 Ideographic description character above to middle and below

表意文字字符用于上中下结构

U+2FF4 Ideographic description character full surround

表意文字字符用于全包围结构

U+2FF5 Ideographic description character surround from above

表意文字字符用于从上方包围结构

U+2FF6 Ideographic description character surround from bellow

表意文字字符用于从下方包围结构

U+2FF7 Ideographic description character surround from left

表意文字字符用于从左方包围结构

U+2FF8 Ideographic description character surround from upper left

表意文字字符用于从左上角环绕

U+2FF9 Ideographic description character surround from upper right

表意文字字符用于从右上方环绕

U+2FFA Ideographic description character surround from lower left

表意文字字符用于从左下角环绕

U+2FFB Ideographic description character overlaid

表意文字字符用于交错

这些序列对于向读者描述无法直接显示的字符很有用,因为它在给定字体中不存在,或者完全不存在于统一码标准中。例如,方块壮字 字符“ ”(在中日韩统一表意文字扩展 F 中编码为 U+2DA21 𭨡),可以描述成“⿰書史”。另一个用途是用于查找字典,即作为用来输入查询的一种简略输入法

这些序列的呈现方式,可以是分别地保留所有字符,或通过解析序列后来绘制目标字符。 [9]它们本身并不能为所有字符提供明确的描绘。例如,序列“⿱十一”代表“土”和“士”。方式

这些序列的统一码规范基于早期GBK标准的字符和语法。

Matthew Skala 提供的自由软件包 IDSgrep[10] [11] 扩展了统一码的表意文字描述序列语法,包括用于字典查找的附加功能;它能够将 KanjiVG 的数据库转换为它自己的扩展 IDS 格式,或者针对由相关的 Tsukurimashou 字体所生成的 EIDS 文件来搜索。

KanjiVG

KanjiVG 是一种自由 (CC-by-sa-3.0) 日语字符描述语言(旨在最终扩展到中文),它是基于SVG和维基编辑系统。

SCML

2007年,结构字符建模语言是另一个基于XML的汉字描述语言,其定位不像字描语和HanGlyph那样基于数字网格。其数据库所使用的笔画、部件是以 SCML 编码。其数据库尽用于原理演示,目前没有已知的尝试将 SCML 套用在所有的统一码,为 CJK 字符进行编码。

参见

外部链接

文林学院CDL语言
SCML
字形

参考资料

  1. ^ Bishop & Cook 2013-12-31:p2
  2. ^ 2.0 2.1 2.2 Bishop & Cook 2013-12-31:p9
  3. ^ 3.0 3.1 文林字形描述語言. [2021-11-29]. (原始内容存档于2021-11-29). 
  4. ^ HanGlyph. [17 February 2012]. (原始内容存档于24 January 2013). 
  5. ^ Wong, Wai. HanGlyph – a Chinese Character Description Language (PDF). Proceedings of the Seventeenth International Conference on Computer Processing of Oriental Languages, Hong Kong. April 1997. (原始内容 (PDF)存档于2021-08-23). 
  6. ^ Yiu, Candy L. K.; Wai Wong. Chinese Character Synthesis using METAPOST (PDF). Proceedings of the 24th Annual Meeting and Conference of the TeX User Group, Hawaii, U.S.A. July 2003. (原始内容 (PDF)存档于2011-07-26). 
  7. ^ Wong, Wai; Candy L. K. Yiu; Kelvin, C. F. Ng. Typesetting Rare Chinese Characters in LaTeX (PDF). Proceedings of the 14th European TeX Conference, Brest, France. June 2003. (原始内容 (PDF)存档于2011-11-06). 
  8. ^ 存档副本 (PDF). [2021-11-29]. (原始内容存档 (PDF)于2019-11-22). 
  9. ^ The Unicode® Standard – Version 12.0 – Core Specification (PDF). Unicode Consortium. March 2019 [2021-11-29]. (原始内容存档 (PDF)于2020-11-12). 
  10. ^ Tsukurimashou Font Family and IDSgrep Project Top Page - OSDN. [2021-11-29]. (原始内容存档于2015-03-25). 
  11. ^ Skala, Matthew. A Structural Query System for Han Characters (PDF). International Journal of Asian Language Processing. 2015, 23 (2): 127–159 [2016-01-13]. arXiv:1404.5585 . (原始内容 (PDF)存档于2016-03-04).