python爬虫爬取内容中，-xa0，-u3000的含义

最新推荐文章于 2024-10-04 13:11:53 发布

iqmae68024

最新推荐文章于 2024-10-04 13:11:53 发布

阅读量806

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/iqmae68024/article/details/54849047

本文介绍了在使用Scrapy爬虫过程中遇到的特殊空白字符xa0和u3000。xa0是非换行空格，在latin1字符集中；u3000是全角空白符，属于CJK标点符号区块。

最近用scrapy爬某网站，发现拿到的内容里面含有\xa0、\u3000这样的字符，起初还以为是编码不对，搜了一下才知道是见识太少233。

\xa0是不间断空白符` `

我们通常所用的空格是\x20，是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1（ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1字符集向下兼容ASCII（0x20~0x7e）。通常我们见到的字符多数是latin1的，比如在MySQL数据库中。

这里也有一张简陋的Latin1字符集对照表。

\u3000是全角的空白符

根据Unicode编码标准及其基本多语言面的定义，\u3000属于CJK字符的CJK标点符号区块内，是空白字符之一。它的名字是Ideographic Space，有人译作表意字空格、象形字空格等。顾名思义，就是全角的CJK空格。它跟nbsp不一样，是可以被换行间断的。常用于制造缩进，wiki还说用于抬头，但没见过。

这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。