
python爬虫
Ssssun_369
学生
展开
-
详解迭代器、可迭代对象、next()与iter()、生成器、yield
文章目录1.什么是迭代器(Iterator) ?2.什么是可迭代对象 (Iterable) ?3.是否是可以迭代器OR迭代对象的判断方式4.Python中和迭代有关的两个函数next()和iter()5.生成器6.yield1.什么是迭代器(Iterator) ?list,truple,str这些都是可迭代对象,但是他们不一定是迭代器。迭代器本身不知道自己要执行多少次,所以可以理解为不知道有...原创 2019-10-04 10:24:23 · 873 阅读 · 0 评论 -
Scrapy入门、当当网商品爬取实战
Scrapy框架介绍小白进阶之Scrapy第一篇](https://cuiqingcai.com/3472.html)常见指令打开cmd,输入scrapy -l ,可以查看可用的指令 bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader genspi...原创 2019-09-30 17:15:56 · 630 阅读 · 0 评论 -
如何在Urllib中使用XPath表达式
XPath常用规则表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置.选取当前节点…选取当前节点的父节点@选取属性在Urllib中使用XPath表达式通过Python的lxml库,利用XPath进行HTML的解析1.安装好lxml后2.首先要导入lxm...原创 2019-09-28 16:47:13 · 729 阅读 · 0 评论 -
使用Beautiful Soup解析库
文章目录使用Beautiful Soup解析库简介支持的解析器基本用法节点选择器提取信息关联选择小结方法选择器CSS选择器使用Beautiful Soup解析库简介支持的解析器基本用法html ="""<html id="html" manifest="offlintab.appcache"> <meta charset="utf-8"> <tit...原创 2019-09-22 16:48:39 · 583 阅读 · 0 评论 -
用户代理池构建实战、IP代理池构建的两种方案实战
用户代理池原创 2019-09-20 19:31:35 · 1116 阅读 · 0 评论 -
urllib基础、超时设置、Get与Post请求、异常处理、浏览器伪装、Python新闻爬虫实战
文章目录urllib基础超时设置自动模拟HTTP请求与百度信息自动搜索爬虫实战自动模拟HTTP请求之自动POST实战爬虫的异常处理实战爬虫的浏览器伪装技术实战Python新闻爬虫实战urllib基础1.urllib库:Python内置的Http请求库,不需要安装。2.包含4个模块:request:最基本的HTTP请求模块,可以用来模拟发送请求。error:异常处理模块,若出现请求错误,...原创 2019-09-18 23:01:54 · 1073 阅读 · 0 评论 -
python爬虫之正则表达式
文章目录原子元字符原子1.原子:正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。2.常见的原子类型:普通字符非打印字符 如\n,\t通用字符 如\W,\w,\d,\S原子表 如[xyz]3.用法实例:import restring = '''123qwe456p8888'''patern = "qwe" patern1 = "...原创 2019-09-14 23:19:17 · 631 阅读 · 0 评论 -
爬虫基本原理
文章目录1.什么是爬虫2. 爬虫基本流程3.Request中包含什么4.Response中包含什么5.解析方式6.怎么解决JS渲染问题1.什么是爬虫请求网站并提取数据的自动化程序2. 爬虫基本流程发起请求——>获取响应内容——>解析内容——>保存数据3.Request中包含什么请求方式(主要有Get和Post)、请求URL、请求头、请求体4.Response中包...原创 2019-09-10 19:18:38 · 270 阅读 · 0 评论 -
腾讯视频《银河补习班》的深度评论爬取实战
需要点击加载更多(如腾讯视频评论)看新内容的,或是不断下滑看到新内容的(如微博),这些都是异步请求。腾讯视频评论爬虫实战。1.进入要爬取某电影评论的界面,点击源代码,搜索发现没有评论的内容,其实内容是放到了js包里,需要使用fiddler工具抓包分析。2.在fiddler中找到抓到的js包,查看textview内容,都类似于这种的"title":"\u6709\u610f\u4e49\u7...原创 2019-10-06 14:21:00 · 374 阅读 · 0 评论