讨论:UTF-8
UTF-8属于维基百科科技主题的基础条目第五级。请勇于更新页面以及改进条目。 本条目页属于下列维基专题范畴: |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
本条目有内容译自英语维基百科页面“UTF-8”(原作者列于其历史记录页)。 |
RFC 3629 规定的编码规则已经发生一些变化
UTF8-octets = *( UTF8-char ) UTF8-char = UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 UTF8-1 = %x00-7F UTF8-2 = %xC2-DF UTF8-tail
UTF8-3 = %xE0 %xA0-BF UTF8-tail / %xE1-EC 2( UTF8-tail ) / %xED %x80-9F UTF8-tail / %xEE-EF 2( UTF8-tail ) UTF8-4 = %xF0 %x90-BF 2( UTF8-tail ) / %xF1-F3 3( UTF8-tail ) / %xF4 %x80-8F 2( UTF8-tail ) UTF8-tail = %x80-BF
已经不见 5,6 bytes 的编码方式了,而且 0xC0,0xC1 以及 F5-FD 位保留
UTF-8 与 unicode 码的转换程式
(我将之前 CRLin 贴上的整段 javascript 删除了,如果要刊登自己的程式,其实大可以上传到某个地方再贴上连结。) AbelCheung 07:55 2006年9月5日 (UTC)
只支援 4 位元组!?
“为了和UTF-16的编码空间一致,在最新的ISO 10646的标准里,最多只使用4位元组编码。5位元组及6位元组UTF-8已不会再使用。” 我完全无法理解这句说话,这是指如果要显示 BMP 以外的字就不能用 UTF-8 吗?别吓我,这是甚么鬼地方得出来的? AbelCheung 06:33 2006年8月6日 (UTC)
- UTF-8原来的确最长可有6位元组,完全容纳UCS-4(
4位元组231,即2,147,483,648个码位)的编码范围;但因UCS-2加上surrogate,亦即UTF-16,已可定义差不多一百万个码位,即BMP加上16个Supplementary Multilingual Plane,用4位元组的UTF-8已可覆盖--水水(留言) 2017年11月30日 (四) 01:27 (UTC)--水水(留言) 2017年12月8日 (五) 01:41 (UTC)
需要重写
现在的内容情况是:
- 使用原因根本不是使用原因
- 批评是拿一个原因重复列出几次
- 不少的错误内容,甚么 4 字节、要和 UTF-16 兼容等等
- 比起英文版,中文版等于甚么实质知识都没有的空泛之谈
- 现在的使用情况 (哪个 OS 用、哪处地方会用到等等) 完全没有
似乎拿英文版来翻译为妙。 AbelCheung 08:02 2006年9月5日 (UTC)
著手重写
我对这题目十分感兴趣,将会依据英文版来重写这题目(UTF-8)的内容。
—Yufung0903 07:22 2007年4月9日 (UTC)
霍夫曼编码?
有一段“虽然至少有两类在技术上是受以前的 UTF-8规范所支援,但这些编码上还没有被赋予字元,所以不会在实际的文本中出现。 演算法设计与霍夫曼编码类似。”,但在英文版中并没有这样的文句,二来,他是可变长度编码,但未非霍夫曼编码吧。 Zao (留言) 2008年7月19日 (六) 07:58 (UTC)
UTF-8对于非法编码是如何处理的
请问有没有人知道这方面的材料,或者能在词条里完善这方面的知识?
外部链接已修改
各位维基人:
我刚刚修改了UTF-8中的2个外部链接,请大家仔细检查我的编辑。如果您有疑问,或者需要让机器人忽略某个链接甚至整个页面,请访问这个简单的FAQ获取更多信息。我进行了以下修改:
- 向 http://www.imc.org/mail-i18n.html 中加入存档链接 https://web.archive.org/web/20071026103104/http://www.imc.org/mail-i18n.html
- 向 http://www.cs.bell-labs.com/sys/doc/utf.pdf 中加入存档链接 https://web.archive.org/web/20050505032430/http://www.cs.bell-labs.com/sys/doc/utf.pdf
有关机器人修正错误的详情请参阅FAQ。
外部链接已修改
各位维基人:
我刚刚修改了UTF-8中的2个外部链接,请大家仔细检查我的编辑。如果您有疑问,或者需要让机器人忽略某个链接甚至整个页面,请访问这个简单的FAQ获取更多信息。我进行了以下修改:
- 向 http://www.linux.org/docs/ldp/howto/Unicode-HOWTO.html 中加入存档链接 https://web.archive.org/web/20050404103611/http://www.linux.org/docs/ldp/howto/Unicode-HOWTO.html
- 向 http://netzreport.googlepages.com/online_tool_for_url_en_decoding.html 中加入存档链接 https://web.archive.org/web/20070403222748/http://netzreport.googlepages.com/online_tool_for_url_en_decoding.html
有关机器人修正错误的详情请参阅FAQ。