在网页原码中常会见到&#XXXXX 格式的字元, 称为Unicode HTML 码
由于编码之故, 非Big5 字元集中的文字, 如GB2312 码或日文字元等,
无法正常的显示,而这些对应不到的文字,就需编码转换成Unicode HTML,
就如同在文字档中使用简体字或日文字,需存成UTF-8或Unicode等编码格式,
对于这种Unicode HTML 格式的字, IE 等浏览器会自行解析成对应的字元
但若由程式抓取网页内容存档,亦或存入资料库,则需转换还原成正确的文字
1. http://www.csie.ntu.edu.tw/~piaip/unihtml/
2. http://www.unicodetools.com/unicode/convert-to-html.php |
|