分詞書寫

中文分詞書寫(Chinese word-segmented writing),也稱分詞連寫詞式書寫,是指像英文拼音文字一樣,按書寫,在詞與詞之間留出空格[1]。例如以下的句子在和詞之間加上空格,就是中文分詞書寫的句子。

乒乓 球拍 賣完了。

分詞書寫可提高漢語閱讀和信息處理的效率。例如:傳統寫法“乒乓球拍賣完了。”有歧義,用分詞書寫可根據需要明確表達爲“乒乓 球拍 賣完了。”或“乒乓球 拍賣 完了。”[2]

歷史

中文和英文都曾經沒有標點沒有分詞書寫。現在英文等拉丁文字兩者都用上了。中文在1900年代初五四新文化运动前后引入了標點符號,但是單詞之間仍然沒有邊界記號,沒有分開來寫。[3]

在1950年代,中國語言學家曾討論過採用分詞書寫的建議,但沒有獲得通過。 [3]

1987年,陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法。 [4]

第一篇分詞書寫的中文文章的出現不晚於1998年,當時在中國的〈中文信息學報〉中發表了題為《也谈汉语书面语的分词问题——分词连写十大好处》的論文。[5] 全文(共七頁)分詞連寫,其摘要如下:

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。

2018年,英文維基學院發表了一篇題為"Word segmentation of Hanzi" (漢字分詞)的短文,其中文版全文分詞如下:[6]

历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。

第一本分詞書寫的書籍是2000年出版的《語言 理論》。 [7]

漢字分詞書寫

中文通常是用漢字書寫的,所以中文分詞書寫主要是指漢字文本的分詞書寫。以下介紹分詞書寫的一些方法或依據。

以表意為主導

分詞書寫的主要目的是準確、清楚地表達作者的意思。 例如,傳統的非分詞句子 「美國會反對。」 有兩種可能的含意,分詞書寫可根據需要清楚表達爲 「 美國 會 反對。」(The US will oppose.) 或 「 美 國會 反對。」 (The US Congress opposed)。又如,「昨天我應用鋼筆簽名。」也有歧義,用分詞書寫可以表達為「昨天 我 應用 鋼筆 簽名。(做了) 」和「昨天 我 應 用 鋼筆 簽名。 (可能沒做)」。這種區別對法庭來說可能很重要。 作者應該根據自己的意思選擇正確的分詞方式,消除歧義。 [3]

使用詞典和語言知識

如果不能確定某個字串是否為合法單詞,作者可以在可靠的漢語词典或分詞語料庫中檢查其是否存在,例如现代汉语词典重編國語辭典修訂本[8]平衡語料庫[9]等。 或根據詞彙、詞法和句法知識檢查它是否是語言學上合格的單詞。 [10]

參考口語規則

在口語中,兩個單詞之間通常有或者可以有停頓,而單詞內音節之間一般不允許停頓。[11][12]

空格的寬度

兩個詞之間的間距設定為漢字寬度的一半比較合適,小於兩行之間的距離。 由於漢語詞的平均長度約為2個字,如果詞間空格是一個漢字的寬度,且大於行間距離,則頁面上的文字行會顯得分散,不緊湊。 更理想的做法是由電腦根據上下文環境做智能的動態調整,類似於MS Word的排版功能。[13]

專有名詞的標記

英文是用大寫字母來標記。漢字文本的專有名詞也應該有標記,例如用底線。[3] 事實上,某些中文聖經(例如現代標點和合本)已經這樣做了。例如:

7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]

拼音分詞书写

拼音通常用来给漢字注音,但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语,所以拼音的书写也是一种中文书写,同时还可以是汉字分词书写的重要参考。[15] 《漢語拼音正字法基本規則》是漢語拼音書寫和分詞的中國國家標準。其主要内容《5. 總則》摘錄如下:[16]

拼音正字法總則摘錄

5.1 拼寫普通話基本上以詞為書寫單位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (媽媽), diànshìjī (電視機), túshūguǎn (圖書館)。

5.2 表示一個整體概念的雙音節和三音節結構,連寫。例如: quánguó (全國), zǒulái (走來), dǎnxiǎo (膽小), duìbuqǐ (對不起), chīdexiāo (吃得消)。

5.3 四音節及四音節以上表示一個整體概念的名稱,按詞或語節(詞語內部由語音停頓而劃分成的片段)分寫,不能按詞或語節劃分的,全都連寫。例如: wúfèng gāngguǎn (無縫 鋼管), huánjìng bǎohù gūihuà (環境 保護 規劃), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (紅十字會)。

5.4 單音節詞重疊,連寫;雙音節詞重疊,分寫。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通紅 通紅)。

重疊並列即AABB式結構,連寫。例如: láilaiwǎngwǎng (來來往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。

5.5 單音節前附成分(副、總、非、反、超、老、阿、可、無、半等)或單音節後附成分(子、兒、頭、性、者、員、家、手、化、們等)與其他詞語,連寫。例如: fùbùzhǎng (副部長), zǒnggōngchéngshī (總工程師), fùzǒnggōngchéngshī (副總工程師), zhuōzi (桌子), háizimen (孩子們)。

5.6 為了便於閱讀和理解,某些並列的詞、語素之間或某些縮略語當中可用連接號。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-機 對話), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。

此外,還有一些其他方面的規則,請見該規範的原文。[17]

分词实例

下面是一個較長的分词书写例子。聯合國《世界人權宣言》中文版第一條 :[18]

人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。

其拼音可分詞連寫為

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.

相應的,其漢字文本分詞書寫形式是

人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。

英文原文:[19]

All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

評論

優點

中文分詞書寫的優點包括:[20]

  1. 有利於語言表達和理解。
  2. 有利於漢語教學。
  3. 有利於語言學研究。
  4. 有利於漢語詞彙的定義和應用。
  5. 有利於電腦自然語言處理。
  6. 有利於拼音與漢字的自動轉換。
  7. 有利於簡繁體漢字轉換。
  8. 有利於校對文章、防止錯字。
  9. 有利於文件排版。
  10. 有利於軟體的漢化或西化。
  11. 將分詞書寫的文本自動正確轉換爲非分詞形式容易,反之則難。
  12. 等等。

缺點

中文分詞書寫的缺點包括:[21]

  1. 需要(大約1/4)更多的(紙面)空間。
  2. 人們還不習慣這種書寫方式。
  3. 需要辨識每個單詞。
  4. 句子看起來不像沒有空格的傳統格式那麼整齊。
  5. 大多數中文單詞都是一兩個字長,即使不使用邊界標記,辨識也不困難。

計算機自動分詞

在分詞書寫普及之前,可用計算機技術來進行漢語文本自動分詞。 目前自動分詞的準確度已達到百分之九十几, 但仍需要人工校對, 而且永遠不會像作者親自分詞那麼可靠。 [22] [23]

參見

參考資料

  1. ^ 陈, 力为 (陈力为). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息学报). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. (原始内容存档于2023-07-08). 
  2. ^ 张, 小衡 (张小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息学报. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. (原始内容存档于2023-06-06). 
  3. ^ 3.0 3.1 3.2 3.3 陈 1996,第12頁.
  4. ^ 陈, 力为 (陈力为). 当前中文信息处理 中的几个问题及其发展前景. 计算机世界(Chinese Computer World ). 1987, 21 (34). 
  5. ^ 张 1998,第57-63頁.
  6. ^ English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. (原始内容存档于2023-07-08). 
  7. ^ 彭, 泽润 (彭泽润、李葆嘉 eds). 语言理论. 长沙: 中南大学出版社. 2000. ISBN 978-7-810-61342-2 (中文). 
  8. ^ 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. (原始内容存档于2024-06-05). 
  9. ^ 存档副本. [2023-12-09]. (原始内容存档于2023-09-28). 
  10. ^ 张 1998,第61頁.
  11. ^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. (原始内容存档于2023-09-22). 
  12. ^ 存档副本. [2023-12-09]. (原始内容存档于2024-05-28). 
  13. ^ 张 1998,第62頁.
  14. ^ 聯合聖經公會. 聖經(現代標點和合本). 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 (中文). 
  15. ^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7. 
  16. ^ 国家语委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. (原始内容存档 (PDF)于2020-12-06). 
  17. ^ 国家语委 2012.
  18. ^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. (原始内容存档于2022-01-19). 
  19. ^ 存档副本. [2023-12-23]. (原始内容存档于2021-03-16). 
  20. ^ 張 1998,第57-61頁.
  21. ^ 陳 1996,第12頁.
  22. ^ 张 1998,第57頁.
  23. ^ 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4. 

外部連結