
python爬虫学习
Pang_ling
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Requests简单入门
发送GET请求最简单的发送get请求就是通过requests.get来实现response=requests.get("http://www.baidu.com/")添加headers和查询参数:如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用 params 参数。相关示例代码如下: import r...原创 2020-08-02 23:15:00 · 218 阅读 · 0 评论 -
Scrapy爬虫的基本使用
演示HTML地址演示HTML页面地址:http://python123.io/ws/demo.html文件名称:demo.html 产生步骤:步骤1:建立一个Scrapy爬虫工程按住shift键右键进入文件夹命令行输入scrapy startproject python123demo 生成的工程目录:python123demo/ -----------------------...原创 2020-08-02 23:08:03 · 177 阅读 · 0 评论 -
Scrapy爬虫框架
1.Scrapy爬虫框架介绍Scrapy:功能强大快速的网络爬虫框架,非常优秀的python第三方库,也是基于python实现网络爬虫的重要的技术路线scrapy不是一个简单的函数功能库,而是一个爬虫框架Scrapy爬虫框架结构 爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件集合爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫scheduler-调度程序spiders...原创 2020-02-16 01:47:51 · 383 阅读 · 0 评论 -
股票数据定向爬虫
案例介绍目标:获取上交所和深所所有股票的名称和交易信息输出:保存到文件中技术路线:requests-bs4-re选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制。选取方法:浏览器F12,源代码查看等。选取心态:不要纠结于某个网站,多找信息源尝试。...原创 2020-02-14 03:21:32 · 213 阅读 · 0 评论 -
某宝爬取
案例简介搜索的首页链接https://s.taobao.com/search?q=连衣裙&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200212&ie=utf8第二页链接https://s.taobao.com/search?q=连衣裙&i...原创 2020-02-12 18:30:18 · 561 阅读 · 0 评论 -
re(正则表达式)库入门
6.1 正则表达式的概念正则表达式是用来简洁表达一组字符串的表达式正则表达式的优势:简洁能非常简单的表达一组数据的特征,能将一组字符串的特点表达出来 通用的字符串表达框架 简洁表达一组字符串的表达式 针对字符串表达“简洁”和“特征”思想的工具 判断某字符串的特征归属正则表达式在文本处理中十分常用 表达文本类型的特征(病毒、入侵等) 同时查找或替换一组字符串 匹配字...原创 2020-02-12 01:47:24 · 311 阅读 · 0 评论 -
中国大学排名的爬取
实例介绍功能描述输入:大学排名的URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:进队输入URL进行爬取,不扩展爬取程序的结构设计步骤一:从网络上获取页面信息getHTMLText()步骤二:提取网页内容中信息到合适的数据结构fillUnivList()步骤三:利用数据结构展示并输出结果printUnivList()...原创 2020-02-11 13:01:45 · 529 阅读 · 0 评论 -
信息组织与提取方法
5.1信息标记的三种形式 标记后的信息可形成信息组织结构,增加信息的维度 标记后的信息可用于通信、存储或展示 标记的结构与信息一样具有重要价值 标记后的信息更有利于程序的理解和运用5.2三种信息标记形式的比较5.3信息提取的一般方法5.4基于bs4库的HTML内容查找方法...原创 2020-02-11 02:05:34 · 320 阅读 · 0 评论 -
Beautiful Soup入门
4.1Beautiful Soup库的小测import requestsr=requests.get('https://python123.io/ws/demo.html')demo=r.textprint(r.text)# <html><head><title>This is a python demo page</title></...原创 2020-02-07 16:19:01 · 504 阅读 · 0 评论 -
Requests库网络爬虫实战
3.1京东商品页面的爬取import requestsr=requests.get('https://item.jd.com/100005603522.html')r.raise_for_status()print(r.encoding)#gbk#从http的头部分就能解析出页面的编码信息,京东网站提供了相关页面的编码信息print(r.text[:1000])import req...原创 2020-02-06 15:18:58 · 620 阅读 · 0 评论 -
网络爬虫盗亦有道
2.1网络爬虫引发的问题2.1.1 网络爬虫的尺度2.1.2网络爬虫的法律风险服务器上的数据产权归属网络爬虫获取数据后牟利将带来法律风险2.1.2网络爬虫泄露隐私 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私2.1.3网络爬虫引发的问题 骚扰问题 法律问题 隐私泄露2.1.3对待网络爬虫的限制 服务器 网站的所有者:通过来源审查限...原创 2020-02-06 14:17:50 · 332 阅读 · 0 评论 -
网络爬虫课程内容导读
requests自动爬取HTML页面,自动网络请求提交robots.txt网络爬虫排除标准Beautiful Soup解析HTML页面并提取相关信息Projects实战项目正则表达式Re正则表达式详解提取页面关键信息Scrapy*网络爬虫原理介绍,专业爬虫框架介绍...原创 2020-02-05 00:46:05 · 272 阅读 · 0 评论 -
Pandas
1.简介pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供很好的支持。pandas的名称来源于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在pandas中也提供了panel的数据类型。2.数据结构Seried:一维数组,与numpy中的一维数组array类...原创 2020-01-31 23:28:25 · 565 阅读 · 0 评论 -
numpy
1.Numpy简介主要提供高性能的N维数数组实现以及计算能力,还提供和其他语言,如C/C++等集成能力,此外实现一些基础的数学算法,如线性代数相关,傅里叶变换以及随机数的生成等。如上图,行数为2,列数为31.1Numpy数组的创建#numpy python的科学计算包arr=[]arr1=[1,2,3]arr2=[1,1,1]print(arr1+arr2) #[1, 2,...原创 2020-01-27 22:28:44 · 630 阅读 · 0 评论 -
Numpy基础语法
NumPy 中的数组NumPy数组 是通常的 Python 列表的扩展。 创建一个数组array(object[, dtype, copy, order, subok, ndmin])从现有的数据创建一个数组。arange([start,] stop[, step,][, dtype]) 返回给定间隔内的均匀间隔的值。linspace(start, stop[, num, endpoi...原创 2019-11-14 12:38:37 · 1077 阅读 · 0 评论 -
爬虫学习01正则表达式
##正则表达式正则表达式是一段字符串,可以表示一段有规律的的信息。python自带一个正则表达式的模块,通过这个模块可以查找,提取,替换一段有规律的信息程序开发中,让计算机从一大段文本之中找到需要的信息,就需要用到正则表达式使用正则表达式的步骤:寻找规律使用正则符号表示规律提取信息正则表达式的基本符号1.点号"."一个点号可以代替除了换行符以外的任何一个字符,包括但不限于英文字母...原创 2020-08-02 23:00:10 · 177 阅读 · 0 评论 -
Requests库基础入门
课程导学介绍Requests库,网络爬虫的盗亦有道,Requests库爬取实例Requests库入门更多信息在 http://www.python-requests.orgRequests库的7个主要方法方法说明requests.requests构造一个请求,支撑一下各方法的基础方法requests.get(url,params=None,**kwa...原创 2020-02-06 02:42:28 · 798 阅读 · 0 评论 -
cookie信息的加载和保存
保存cookie到本地保存cookie到本地,可以使用cookiejar的save方法,并且需要指定一个文件名:from urllib import requestfrom http.cookiejar import MozillaCookieJar#保存到电脑的cookie.txt位置cookiejar = MozillaCookieJar("cookie.txt") handle...原创 2020-04-22 00:06:55 · 411 阅读 · 0 评论 -
cookie原理和基本使用
什么是cookies在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前...原创 2020-04-14 23:21:37 · 500 阅读 · 0 评论 -
ProxyHandler
很多网站会检测某一段时间某个ip的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个ip的访问,所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算ip被禁止,依然可以换个ip继续爬取,urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:在这里插入代码片...原创 2020-04-13 21:30:01 · 742 阅读 · 0 评论 -
用Request爬取实战
request.Request类如果想要在请求的时候增加一些请求头,用request.Request。比如要增加一个User-Agent在拉勾网的职业信息通过另外的网址,再通过JS嵌入到主页面的html代码当中的真正的职业信息在json.cn中解码得请求页面,还有请求方式为POSTfrom urllib import requesturl="https://www.lagou.c...原创 2020-04-11 14:50:16 · 600 阅读 · 0 评论 -
urllib库
urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据urlopen函数在Python3的urllib库中,所有和网络请求相关的方法,都被集到 urllib.request 模块下面了,先来看下urlopen的基本使用注意:点击函数名按 ctrl+B 查看原函数from urllib import ...原创 2020-04-11 01:05:43 · 198 阅读 · 0 评论 -
爬虫 http协议和Chrome抓包工具
什么是http和https协议HTTP协议:全称是 HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80HTTPS协议:是HTTP的加密版本,在HTTP下加入SSL层,服务器端口号是403在浏览器中发送一个http请求的过程当用户在浏览器地址栏中输入一个URL并按回车键之后,浏览器会向http服务器发...原创 2020-04-10 00:27:35 · 262 阅读 · 0 评论