
爬虫
文章平均质量分 77
Ramond.Z
欢迎访问个人网站https://ramondz.cn
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《精通Python网络爬虫》读书笔记—— Urllib库(1)
一、利用Urllib爬取网页1.导入对应模块: 因为Python 3.*版本中将urllib和urllib2合并为urllib,所以直接import urllib.request2.使用 urllib.request.urlopen(url)打开并爬取一个网页 这里将百度作为例子file = urllib.request.urlopen("http://ww...原创 2018-10-21 22:46:34 · 314 阅读 · 0 评论 -
Scrapy框架基础
cmd操作指令 commands meaning bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates runspider...原创 2018-08-21 23:11:32 · 292 阅读 · 0 评论 -
基本库的使用——urllib库
urllib库1.导入对应模块:因为Python 3.*版本中将urllib和urllib2合并为urllib,所以直接import urllib.request2.使用 urllib.request.urlopen(url)打开并爬取一个网页这里将百度作为例子file = urllib.request.urlopen("http://www.baidu.c...原创 2018-08-21 10:10:51 · 353 阅读 · 0 评论 -
基本库的使用——requests
requests库1) GET请求基本操作import requestsurl = 'https://www.baidu.com'response = requests.get(url)添加参数,头信息params = { 'kw':'Python', 'page':'1'}headers = { 'user-agent':'...原创 2018-08-21 17:38:17 · 373 阅读 · 0 评论 -
利用动态渲染页面对京东笔记本电脑信息爬取
写在前面之前写过一个爬取京东商品的Scrapy爬虫项目,但是里面价格及评论数是通过逆向工程法获得的,在不使用代理ip的情况下,在爬取一定数量的商品后会被持续要求输入验证码。所以这里写出利用动态页面渲染对京东商品价格及评论数爬取的方法。 在之前的项目中,构造特殊请求获得的数据有:价格评论数好评度但由于好评度需要进入单个商品的页面才能获取,而利用动态渲染页面爬取数据其实是...原创 2018-08-24 11:14:32 · 1199 阅读 · 2 评论 -
解析库使用
1)XPathXPath通过标签()提取信息→更适用于爬虫a.构造解析对象方法一:处理文本from lxml import etreetext = '''<ol class="carousel-indicators"> <li data-target="#myCarousel" data-slide-to="0" class="acti...原创 2018-08-23 09:31:07 · 396 阅读 · 0 评论 -
Python爬虫——查询英语四、六级成绩
今天出六级成绩,很多人在成绩出来之后的一段时间都查询不到自己的成绩。晚上有空就写了一个爬虫。首先进入查询四、六级成绩的网页,这里使用的是“http://cet.neea.edu.cn/cet”进入之后发现不能右键查看源代码,不过也没有关系,直接打开开发者工具 输入前两个信息后点击验证码输入框,发现出现两个新的GET请求 显然这是获取验证码的相关请求。点击第一个请求,可以发现验证...原创 2018-08-22 22:27:02 · 6137 阅读 · 10 评论 -
Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取
一、创建Scrapy项目在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫scrapy startproject JD_Goodscd JD_Goodsscrapy genspider -t basic goods jd.com二、容器设置在京东商城笔记本电脑分类下进入一个商品页面,在“”规格与包装”栏下可以看见该笔记本电脑的详细信息经过筛选,在item...原创 2018-08-10 21:36:13 · 2184 阅读 · 0 评论 -
《精通Python网络爬虫》读书笔记—— Urllib库(2)
一、利用Urllib爬取网页8.HTTP请求 HTTP协议请求主要分为6类:GET,POST,DELETE,PUT, HEAD, OPTIONS1). GET 请求 在淘宝上搜索Python后观察可以发现URL由‘http://www.taobao.com’变为了‘https://s.taobao.com/search?q=Python&imgfile=&...原创 2018-10-21 22:46:26 · 312 阅读 · 0 评论 -
Python+Selenium(+pymysql)实现自动听取慕课课程
*这里实现的是超星在线学习平台上课程的自动听取,虽然最终成功了但是由于并不了解网站后台的监控机制,还是乖乖肉身听课吧(逃一、主体结构由于实现的功能并不是十分复杂,这里只构造了一个AutoStudent类来完成自动听课,主要分为四个模块:用户登录 选择课程 检测尚未完成的小节 自动听课二、详细步骤1.__init__()首先创建一个类并定义初始化函数,在此函数中定义...原创 2018-10-21 22:44:19 · 2112 阅读 · 0 评论