python 爬虫实战（一） —— 抓取学校开课数据

最新推荐文章于 2025-07-05 19:52:24 发布

greenchina1992

最新推荐文章于 2025-07-05 19:52:24 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬虫 python 编码 xpath

本文链接：https://blog.youkuaiyun.com/greenchina1992/article/details/43375997

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍了使用Python进行爬虫实战，抓取学校开课数据的过程中遇到的挑战，包括Scrapy框架、XPath的使用、Cookie管理、字符集问题以及数据清洗。在字符集方面，通过调整为gb2312解决乱码问题，但依然存在编码错误。此外，还讨论了如何处理网页中的空格和回车，并强调了仔细观察和查阅官方文档的重要性。未来计划采用多线程和异常处理来优化爬虫。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、在python方面的爬虫领域，有一个很强大的集成化、开源的工具，叫 scrapy，做这个小项目之前稍微试用了一下，本来只是想尽快完成这个小项目，但scrapy还是有点深，所以并没有实际掌握，倒是接触到了里面一个很强大的正则工具，xpath，摆脱了学正则化表达式的痛苦

2、整个项目就是一些小模块的累加，也是不断摸索的过程。

3、一开始，使用urllib以及urllib2初探模拟浏览器发送请求的过程当中，由于对cookie机制的不了解，犯下了一个比较严重的错误：

学校具体的课程数据是由学期->学院->课程信息这样的结构组成的，为了爬取到所有的数据就得从一开始的学期开始抓取数据，所以就得每一层的链接都要访问，这样cookie才能够正确，不会出现404等问题。我一开始直接将chrome里面的cookie数据直接封装到了请求的头里面，从而造成了很大的错误。

4、字符集问题。由于一开始没有考虑到字符集相关的问题，所以经常会出现乱码或者xpath无法进行正则，后来开始使用gb2312（因为网页的头当中的 charset 为gb2312），但仍然会在编码方面出错

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 1771-1772

于是改正为gbk编码，但仍然报错，因为数据当中有不少是学生的姓名，姓名当中居然出现了“䶮”(yan 第三声)这样的字，而gbk编码无法支持，后来去查阅了百度百科以及 python的官方文档才深刻的认识到了中国的文字真的是太多了，最后挑选了目前python能够支持的最大的字符集’gb18030'，才差不多解决了问题。

当然，如果对数据的完整性要求没有太严格，可以考虑使用'ignore'参数：

#全部转换为utf-8       
data = data.decode('gb18030').encode("utf-8")        
content = data.decode('utf-8')

5、xpath是一个很好的工具， scrapy官方文档有提到大概的使用方法以及安装方法， W3School中更给出了详细的使用方法。这儿简单说一下安装方法。

a、首先，最好将python作为全局使用的命令(windows下)，需要修改 PATH 环境变量，将Python的可执行程序及额外的脚本添加到系统路径中。将以下路径添加到PATH 中:

$安装目录:\Python2.7\;$安装目录:\Python2.7\Scripts\;

然后打开命令行窗口，并且运行以下命令来修改 PATH ：

$安装目录:\Python27\python.exe $安装目录:\Python27\tools\scripts\win_add2path.py

关闭命令行窗口之后，重新打开，输入以下命令，确认可以输出python的版本号：

python --version

b、最好有安装pip，它是一个类似于linux那种管理所有python所有包的工具，可以在这儿以及这儿获取到，下载完成之后，用命令行进入到存放的目录，运行命令：

python get-pip.py

即可安装完成pip

c、在命令行窗口任意目录输入以下命令：

pip install lxml

就可以安装完成xpath，以后如果需要其他的库，如chardet等等，都可以输入类似的命令进行安装

6、因为很多xpath的结果当中有空格以及回车（主要是因为学校的网页上面有太多莫名其妙的回车），所以需要将这些东西去除，从而让数据更好看一点，可以使用正则等方法，以下是找到的一个解决方案：

a = '   123123   '
a = "".join(a.split())
#结果为
a='123123'

7、仔细观察，勤于查找，多用官方文档

8、reference:

文件读写操作
 用Python抓网页的注意事项

编码相关

stackoverflow有关编码的讨论

python爬虫实例-爬取北邮研究生成绩

9、后续问题：

目前仍有一些问题，在xpath提取数据的时候，由于一些课程的xml差距比较大，比如有些课程有备注信息：

 <td width="60"><small><small>双语教学。                                                                                                                    <small/><small/></td>

则需要使用xpath("//td/small/small")获取，但有一些课程没有备注信息：