要扒数据,肯定得先写爬虫,打算尝试一下用python的Scrapy框架,结果刚开始就遇到一些问题。总结一下,做备案。
环境:Ubuntu15.04 麒麟版
问题1.pip安装Scrapy中遇到UnicodeDecodeError,0xe6这个字符解析不成功.
分析:
编码问题一直是Python2.x各个版本的痛点,Python3截止16年初还未有Scrapy的库.
很多文章,包括StackOverFlow上面的大多解释,都是让对出错页面或者python一个lib库中的文件进行编解码转换,这些方法可以参照StackOverFlow或者下面两个链接内容http://www.codesec.net/view/196722.html.http://blog.youkuaiyun.com/emily_and_cat/article/details/44080595。
但是具体问题具体分析,我这里说一下另一个错误可能,那就是系统环境的编码问题.
我的Ubuntu语言环境选的中文,切换为英文,则解决了编码问题UnicodeDecodeError.还有一种方法就是暂时将环境变量,LANG设置为中文gbk.
分析:
这个问题比较好解,都是缺少一些C/C++库的依赖,看一下报错上方几行的地方,是缺失什么头文件,然后去搜索安装,我遇到的主要是缺少libxml2以及libffi.
下载安装方式:
<span style="font-family: Arial, Helvetica, sans-serif;">wget ftp://xmlsoft.org/libxml2/libxml2-git-snapshot.tar.gz</span>
<span style="font-family: Arial, Helvetica, sans-serif;">解压tar.gz文件</span>
cd libxml2-2.9.2/
./configure
make
make install
wget ftp://sourceware.org/pub/libffi/libffi-3.2.1.tar.gz
解压tar.gz
cd libffi-3.2.1
./config
make
make install
分析:
这个问题跟问题2一样,都是缺少库.
Ubuntu下:
sudo apt-get install libssl-dev
另外记录一些看到的帖子,做个记录,之后遇到可查:
http://www.tuicool.com/articles/URNVV3E
http://www.tuicool.com/articles/EVfqI3
http://www.tuicool.com/articles/77BZfuf