【爬虫】手把手教你写网络爬虫（1）

最新推荐文章于 2025-11-24 15:28:22 发布

原创

最新推荐文章于 2025-11-24 15:28:22 发布 · 2.8w 阅读

CC 4.0 BY-SA版权

文章标签：

本文通过实例教学，介绍了如何使用Python语言及urllib.request和BeautifulSoup库抓取网页数据，并利用Selenium和PhantomJS处理动态网页，最终实现了一个简单的网易云音乐歌单爬虫。

介绍

什么是爬虫？

先看看百度百科的定义:

简单的说网络爬虫（Web crawler）也叫做网络铲（Web scraper）、网络蜘蛛（Web spider），其行为一般是先“爬”到对应的网页上，再把需要的信息“铲”下来。

为什么学习爬虫？

看到这里，有人就要问了：Google、百度等搜索引擎已经帮我们抓取了互联网上的大部分信息了，为什么还要自己写爬虫呢？这是因为，需求是多样的。比如在企业中，爬取下来的数据可以作为数据挖掘的数据源。甚至有人为了炒股，专门抓取股票信息。笔者就见过有人为了分析房价，自学编程，爬了绿中介的数据。

在大数据深入人心的时代，网络爬虫作为网络、存储与机器学习等领域的交汇点，已经成为满足个性化网络数据需求的最佳实践。还犹豫什么？让我们开始学习吧！

语言&环境

语言：人生苦短，我用Python。让Python带我们飞！

4 条评论

求学萌萌新 2020.06.30
内容先不看，那个表情包太逗了，感觉就是我的工作写照[face]monkey:2.gif[/face][face]monkey:2.gif[/face]

GiottoLLL 2018.05.17
您好，我在写入csv文件后，打开发现是乱码，在网上搜索原因进行解决是将输出文件使用ansi编码重新保存，但我想直接在源代码中设置自动转码，于是尝试使用codes库，结果一直报错，请问楼主有什么好的办法吗。
- weixin_34053639回复GiottoLLL 2018.05.23
  [reply]qq_42185654[/reply] 你用的是哪个版本？为什么我跑出来啥都没有。

十字上的浊年 2018.04.03
UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead. 出现错误的原因是不是这个？Selenium不再支持PhantomJS了。
- qq_38370280回复十字上的浊年 2018.11.14
  [reply]qq_29459751[/reply] selenium版本太高，卸掉重新装2.48.0版本即可（pip install selenium==2.48.0）

weixin_40927169 2018.03.22
出现错误：UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless ' 之后怎么修改？？
- 十字上的浊年回复weixin_40927169 2018.04.03
  [reply]weixin_40927169[/reply] 我也是，请问您解决了吗？是怎么解决的？

JObum923 2018.03.09
你好，提示selenium.common.exceptions.NoSuchFrameException，这是因为什么原因呢？
- jxdgogo回复JObum923 2019.11.11
  [reply]JObum923[/reply] 我也是这个问题[code=python] selenium.common.exceptions.NoSuchFrameException: Message: {"errorMessage":"Unable to switch to frame" [/code]

wwdors 2018.01.30
系统提示data不能使用len怎么解决啊
- Avalonlin回复wwdors 2018.03.06
  [reply]wwdors[/reply] data = driver.find_element_by_id('m-pl-container').find_elements_by_tag_name('li') 你应该是这一句后面的element没有加s才报错的。