爬虫程序的学习经历

最新推荐文章于 2025-04-12 10:10:07 发布

deepexpert_luowc

最新推荐文章于 2025-04-12 10:10:07 发布

阅读量658

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/deepexpert_luowc/article/details/41172923

1.爬虫程序的学习要从最基本的python的包学起，按照老师的指引，在网上搜了一些有关的包urllib,urllib2,cookielib，这些包的应用是爬虫程序里面最基本的知识，在网上搜了一些相关的教程，有几篇有关的博客我觉得写得很好，很详细，如http://blog.youkuaiyun.com/tianzhu123/article/details/7193455，这个详细的介绍了urllib的相关函数的使用功能，对于我这样一个爬虫的初学者来说很有用.

2.但是要登陆某个指定的网站进行相关的操作，光靠urllib的urlopen还是不够的，还需要更加高级的buildopener操作，这就要用到跟urllib2和cookielib相关的知识了，http://www.cnblogs.com/sysu-blackbear/p/3629770.html这篇博客里面介绍有关运用urllib2和cookielib相结合的方法来进行模拟的网站登陆的内容，这里面的登陆网站的模板也是我这一次编写的程序的参考资料.

3.刚开始程序编写出来运行的时候总是报错，报错内容如下"SyntaxError: Non-ASCII character '\xc7' in file

E:/pythonʵ��/urllib2/urllib2.py on line 7, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details",原因是python中无法输出中文，要进行转换，经过查询知道要在程序的开头加上#coding=utf-8，这样就能正常运行程序了。

4.可以说一个小小的爬虫的模板并不是那么容易理解的，比如说程序中，要传入表单postdata，还有headers，这些跟指定的网站相关的信息无法直接获取，还要通过浏览器自带的抓包工具来实现，经过试验，目前只发现ie9浏览器里面自带的抓包工具才能获取我想要的内容，但是抓取到的内容很多，我自己还是不太清楚哪些是必须的，那些时可选的，索性全部写上去了。

5.其他的浏览器比如360什么的抓包的内容没有postdata和headers，但是仍然可以通过一些相匹配的抓包工具进行相关操作获取想要的信息，比如说火狐浏览器就可以使用httpfox这个小工具进行抓包获取相关的信息。

6.爬虫程序中还会用到正则表达式，比如说re模块还有comlie（），这些我掌握的还不够要进一步的学习。

7.遇到问题如何遍历五位以内的所有域名，自己没能找到什么合适的办法，请教别人，最终也是采用了最基本的for循环体的嵌套完成遍历的工作。