斯肯索普问题
网路上的脏话过滤器所引发的问题
斯肯索普问题(Scunthorpe problem)是指在電子邮件过滤或搜索引擎中,由于文本包含一个或多个看似有亵渎或非法含义的字符串(或子串),导致网站、电子邮件、论坛帖子或搜索结果被无意间阻拦的现象。受此问题影响最多的是名称、缩写和技术术语等。
这个问题的产生源于电脑虽然能轻易识别文件内的文本字符,但是没有相当的能力来解释这些文字的含义;對此电脑需要能理解广泛的语境,甚至跨越多个文化,而这是一项极其困难的任务。因此,广泛的阻挡规则可能会导致对无辜短语的误判,出现错误拦截的情况。
词义和起源
该问题源于1996年的一次网络事件,当时美国在线(AOL)的脏话过滤器阻止了英格兰北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上创建账户,因为该市名中包含了字符串“cunt(屄,阴道)”。[1]在2000年代初,谷歌的安全搜索过滤器也犯了同样的错误,阻止了人们搜索包含斯卡恩索普市名称的本地企业或网站,故这一问题由此得名。[2]
解决措施
由于创建一个能够理解上下文中的词组的过滤器非常困难,因此斯肯索普问题很难完全解决。[3][4]一种常见的解决方案是创建一个白名单,其中包含已知的容易产生斯肯索普问题的词组,任何出现在白名单上的单词都将被过滤器忽略,即使它们包含的文本在其他情况下可能是不允许的。[5]另一种常见的解决方案是通过贝叶斯公式来计算单个词组成为敏感词的概率,进而组合分析一段话中包含敏感词的概率,但这一方法需要对大量语料数据的分析作为支持。[6]
事例
敏感词过滤器引發的錯誤包括:
中国大陆以外的斯肯索普问题
- 1998 年 4 月,杰夫-戈德(Jeff Gold)试图注册域名
shitakemushrooms.com
,但由于其中包含敏感词shit,他被互联网络信息中心(InterNIC)的过滤器阻止。[7] - 2000 年,一则关于网络过滤软件的加拿大电视新闻报道发现,蒙特利尔城市社区(Communauté Urbaine de Montréal,法文)的网站被完全屏蔽,因为其域名是法文缩写CUM (www.cum.qc.ca ),而“cum”(除其他含义外)是精液的英语俚语。[8]
- 2008年,新西兰华卡塔尼镇(Whakatane)的免费无线网络服务过滤器由于其语音分析认为“whak”听起来像脏话,因此屏蔽了涉及该镇名称的搜索;该镇名称为毛利语,在毛利语中,“whak”读音近似“fuck(操、肏)”。随后,该镇将镇名加入了过滤器的白名单中。[9]
- 2010年6月,推特在一个卢森堡用户开通账户并发布他的第一条推文29分钟后,就将其封锁了。该推文写道:“终于!一对美丽的蓝脖山雀已经搬进了我的鸟屋!(Finally! A pair of great tits (Parus major) has moved into my birdhouse!)”虽然该用户在推文中使用了拉丁学名来表明他是在谈论鸟类,但推特并没有为他解封账户。[10]
- 2020年10月,在一次古生物学会议上,推特的敏感词过滤器屏蔽了“骨头(bone)”、“阴毛(pubic)”和“溪流(stream)”等词语。[11]
- 2021年1月,由于错误地将德文郡的普利茅斯(Plymouth Hoe)标记为厌恶女性,Facebook向被禁言和封号的用户道歉。[12]
中国大陆的斯肯索普问题
- 2011年7月,在新浪微博上有人声称前中共总书记江泽民已去世后,中国互联网上与“江”这个姓氏相关的搜索被封锁。由于“江”这个字也表示“河流”,因此导致包括长江等河流的搜索结果均显示:“根据相关法律法规和政策,无法显示搜索结果。”[13]2022年,当江泽民真正去世后,这个问题再次出现。[來源請求]
- 2019年,回形针PaperClip发布视频指出不少容易在中国大陆被误封锁的词句,如“一台独立服务器”(台独为中国大陆敏感词)。[6]
- 2022年10月,中国ACGN在线百科全书萌娘百科的母公司因页面内容违反《中华人民共和国网络安全法》,被当地公安机关当场训诫,随后萌娘百科进行了整改,整改后的萌娘百科将包括“习”、“维尼”、“天朝”、“6月4日”等敏感词汇显示上被替换成“♯”号,一度引发了严重的误伤问题(如“学习”被替换成“学#”),目前有所改善。
参考来源
- ^ Neumann, Peter G. The RISKS Digest, Volume 18 Issue 07. The RISKS Digest, Volume 18 Issue 07. 1996-04-25, 18 (07) [2023-02-18]. (原始内容存档于2022-04-11) (英语).
- ^ McCullagh, Declan. Google's chastity belt too tight. CNET. [2023-02-18]. (原始内容存档于2023-02-18) (英语).
- ^ Fri, Aug 31st 2018 12:09pm-Cathy Gellis. The Scunthorpe Problem, And Why AI Is Not A Silver Bullet For Moderating Platform Content At Scale. Techdirt. 2018-08-31 [2023-02-18]. (原始内容存档于2023-02-18) (美国英语).
- ^ Life on the Internet Is Hard When Your Last Name is 'Butts'. www.vice.com. [2023-02-18]. (原始内容存档于2023-02-18) (英语).
- ^ Veale, Tony. Your Wit Is My Command: Building AIs with a Sense of Humor. MIT Press. 2021-09-07. ISBN 978-0-262-04599-5 (英语).
- ^ 6.0 6.1 Vol.014 如何科学地消灭敏感词|回形针, [2023-02-18], (原始内容存档于2023-02-18) (中文(中国大陆))
- ^ Festa, Paul. Food domain found "obscene". CNET. [2023-02-18]. (原始内容存档于2023-02-18) (英语).
- ^ Foire aux questions. web.archive.org. 2012-10-21 [2023-02-18]. 原始内容存档于2012-10-21.
- ^ F-Word Town's Name Gets Censored By Internet Filter - Switched. web.archive.org. 2008-12-01 [2023-02-18]. 原始内容存档于2008-12-01.
- ^ Luxembourg new Twitter user blocked after 29 minutes. 22 June 2010. Retrieved 12 June 2010. [失效連結]
- ^ A Profanity Filter Banned the Word 'Bone' at a Paleontology Conference. www.vice.com. [2023-02-18]. (原始内容存档于2021-02-23) (英语).
- ^ Morris, Steven. Facebook apologises for flagging Plymouth Hoe as offensive term. The Guardian. 2021-01-27 [2023-02-18]. ISSN 0261-3077. (原始内容存档于2021-01-29) (英国英语).
- ^ Chin, Josh. Following Jiang Zemin Death Rumors, China's Rivers Go Missing Online. WSJ. [2023-02-18]. (原始内容存档于2023-02-18) (美国英语).