为什么我的网站都使用UTF-8
今天听了对车东的访谈,里面提到了UTF-8的问题。我觉得使用UTF-8这样的多语言编码方案还是有必要的。
多语言编码的优点是可以在一个页面里同时显示多种语言。像这样,“アメリカ”、“검색센터”、“กองทัพอากาศ”。但是本地编码的方式通常只能显示一种语言的文字,其他语言的文字就乱码了。
为什么在一个页面里会要多种文字呢?举个例子,blog经常引用别人的网站吧,那么我现在引用了这个“http://www.콘테이너시공테크.com”,还有这个名称比较有趣的“http://www.♣.com”。这就需要多语言的编码了。(这些网站在支持punycode的浏览器里,如mozilla, firefox,是可以直接访问的)
再举个例子,我有一个webmail,界面是中文的,编码是GBK。朋友给我发邮件,中文的、英文的都没有问题,正常显示。可我还有朋友是以色列的,用的是希伯来语给我发的邮件。完蛋,邮件内容都是乱码了。我得手工选择浏览器的编码才能看明白邮件的内容。遗憾的是,这时界面的“回复”按钮又成了乱码,搞得我看不出哪个按钮是回复了。如果webmail是多语言的编码,比如UTF-8,就不会有这样了。
UTF-8对中文为主的网站有个缺点是,页面变长了。不是内容显示变长了,而是文件的size变长了。UTF-8对一个中文字符的编码通常是3个byte,而GB2312是2个byte。
Technorati Tags: i18n






不懂就不要乱说.
为什么用UTF-8
我反问
你为什么说普通话?
你自己的叶子为什么也用UTF-8?
你说你讨厌BLOG.
你为什么写BLOG?
自己是个垃圾就不要嫌弃垃圾.
因为嫌弃垃圾的同时想想你自己.
其实也身在垃圾之中……….
BY SIYIZHU
- UTF-8更像是”普通话”的编码方式
- 我喜欢Blog,但我讨厌”博客中国”
你知道个屁,utf-8是一种歧视性的编码,采用gb2312一个汉字只需要两个字节,而utf-8要三个字节,平白无故的就要多出一个字节来,你想想这样中文文档的存储,网络传输平白又要多出多少浪费来。老外自己都承认了:
Let’s address the problem first: UTF-8 is kind of racist. It allows us
round-eye paleface anglophone types to tuck our characters neatly into one byte, lets most people whose languages are headquartered west of the Indus river get away with two bytes per, and penalizes India and points east by requiring them to use three bytes per character.
就算要统一编码,作为中国人那也只能支持utf-16,而不是utf-8