语言资源
语言资源是指语言处理(自然语言处理)时所要用到的资源[1]。除此之外,语言资源亦是语言学的研究材料。一种语言的文字材料以及其被录下的发音都是它的资源,例如用粤语白话文写成的文字材料是粤语的语言资源,但白话文基于官话,白话文文字材料就不是粤语的资源。某种语言的语料库、维基百科以及社交媒体等都可以视为某种语言的语言资源。
语言资源对于自然语言处理以及生成式人工智能来讲不可或缺,因为让电脑处理一门语言,通常都要让电脑读取大量文字。例如OpenAI在开发ChatGPT的时候,至少就用到了上亿的英文文字。
参考文献
- ^ LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group (页面存档备份,存于互联网档案馆), W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020