HTML页面编码charset选择

一、编码重要性

编码可招致阅读者经由过程IE时分网页乱码，也可导致div+css的兼容性Hack。

二、编码的位子

通常这段网页编码放在html网页中的<head>和</head>两头。

三、html编码格局

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

颠末窜改charset=utf-8中的utf-8即可以篡改网页的编码。
一般我们在写CSS文件时候也需要在CSS文件顶部应用@charset "utf-8";来界说此CSS文件编码类型。一般html源代码和css文件编码要抗衡，假定不对抗会招致CSS hack，页面乱码网页页面排版乱等兼容问题。

四、常用html编码种类

外洋常用的盛行的有utf-8、gb2312这两种。通常这两品种型就能满足国内网页编码需求。固然法度模范与数据库中也会用到这两种编码类型来处理网页和存储数据类型。

五、UTF-8 有一下个性:

UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只征求 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是同样的.
全体 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标识表记标帜位集. 因而, ASCII 字节 (0x00-0x7F) 不成能作为任何其他字符的一一小部分.
表现非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范畴里, 并指出这个字符包含几何个字节. 多字节串的另外字节都在 0x80 到 0xBF 领域里. 这使得从新同步尤为容易, 并使编码无邦畿, 且很少受迷失字节的影响.
可以编入全数或者的 231个 UCS 代码
UTF-8 编码字符实际上可以至多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.
Bigendian UCS-4 字节串的布列顺序是预约的.
字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

六、GB2312 有下列特性

GB2312尺度共收录6763个汉字，此中一级汉字3755个，二级汉字3008个；同时，GB2312收录了包括拉丁字母、希腊字母、日文平假名及片化名字母、俄罗斯语西里尔字母在内的682个全形字符。

GB2312的泛起，根底满足了汉字的计较机措置需要，它所收录的汉字已经覆盖99.75%的使用频率。GB2312中对所收汉字发展了“分区”处理，每区含有94个汉字/符号。这种闪现方式也喻为区位码。

01-09区为非凡符号。

16-55区为一级汉字，按拼音排序。

56-87区为二级汉字，按部首/笔划排序。

10-15区及88-94区则未有编码。

举例来说，“啊”字是GB2312当中的第一个汉字，它的区位码便是1601。字节布局在使用GB2312的法式中，通常接纳EUC贮存门径，以便兼容于ASCII。每个汉字及符号以两个字节来显现。第一个字节喻为“高位字节”，第二个字节称为“低位字节”。 “高位字节”运用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。譬喻“啊”字在大多数法度模范中，会以0xB0A1贮存。（与区位码相比：0xB0=0xA0+16,0xA1=0xA0+1）。

所以GB2312编码中汉字区码的十进制是从176到247，位码是从161到255.之以是存储了6763小于82*94=6768，是因为在区码为215，位码为250-254之间共五个编码不有汉字编码，以是6768-5=6763个。

GB2312编码可以通俗认识为国外普片的说话。

七、保举charset使用编码

UTF-8可以通俗分明简体繁体可用此编码如台湾和要地本地运用此编码。

八、因编码导致网页兼容过失标题问题：

假如编码混排将使网页乱码也叫不兼容，额定是在CSS表明中运用了编码混排将导致css hack。

如需转载，请注明文章出处和来源网址：http://www.divcss5.com/w3c/w52000.shtml