
Python从入门到工作使用
Python学习入门然后后来这边有数据过滤,所以也就是工作中也使用了。目前暂不开发。后期整理好了再开放出来,供大家一起来学习下。目前还需要一些整理工作。有些时间就分享在这里
苦思冥想行则将至
分享下心得!加油,会越来越好的!让这世界更加美好我们一起努力!
展开
-
Python学习[6]:urllib库-爬虫的第五步之 正则表达式
常用的一些Python的正则说明: "\w" 的意思是单词字符[A-Za-z0-9_]。注意是 "单字符串",可以是A-Z或者a-z或者0-9或者_各国语言中的任意一个。 "+" 匹配前一个字符1次或无限次。那么 "\w+" 组合起来的意思就是匹配一次或无限多次的但字符串[A-Za-z0-9]组合的字符串。 "@" 是邮箱的特定字符,所以固定不变。 第二个 "\...原创 2019-11-27 13:52:01 · 216 阅读 · 0 评论 -
Python学习[5]:urllib库-爬虫的第四步之超时
1、设置超时的目的是为了防止爬取网站的时候,等待时间过长而导致效率的降低。有效的超时设置可以强制结束等待而进行下一次的爬取。比如有些网站访问的时候有超时机制导致问题会出现失效。代码案例,可以直接在Eclipse上面运行出来,然后进行分析学习:import urllib.requestimport urllib.errorimport urllib.parseimport soc...原创 2019-11-27 13:30:57 · 310 阅读 · 0 评论 -
Python学习[4]:urllib库-爬虫的第三步之代理IP
代理IP代理ip就是可以模拟一个ip地址去访问某个网站爬取某个网站的大量信息时,可能由于我们爬的次数太多导致我们的ip被对方的服务器暂时屏蔽,比如微信文章爬虫超过5000次就直接被拦截了。利用urllib的request就可以完成代理IP的使用urlopen只是opener的通用版本,代理IP对于urlopen实现不了,opener需要自定义。request里面正好有处理各种功能的...原创 2019-11-27 11:29:22 · 2202 阅读 · 0 评论 -
Python学习[3]:urllib库-爬虫的第二步
这一节主要学习了以下方面: POST请求的处理 代理IP使用 超时处理加工 parse解析工作 POST请求的处理POST是HTTP协议的请求方法之一,作为一枚资深的JAVA开发,对于postMan的使用和测试开发势必要步骤。在这里主要是使用Python的post来实现正常的post请求模拟,发送信息正常访问服务器。比如通常使用的登录,以及条件查...原创 2019-11-27 11:08:54 · 1714 阅读 · 0 评论 -
Python学习[2]:urllib库-爬虫的第一步
Python有一个内置的urllib库,学习爬虫第一步。这个内置库的使用就可以完成向服务器发出请求并获得网页的功能。非常重要。在Eclipse【我就是使用Eclipse来开发的】配置好函数库入门第一步就是学会使用urllib3里面的函数 request基本功能, urlopen, Request error异常的使用 request request请...原创 2019-11-27 10:47:40 · 818 阅读 · 0 评论 -
Python学习[1]: Python爬虫入门基础Python爬虫怎么入手
学习Python爬虫的大致步骤如下: 首先学会基本的Python语法知识(Python基础语法很重要哦!); 学习Python爬虫常用到的几个重要内置库urllib, http【函数库】等,用于下载网页; 学习正则表达式re、BeautifulSoup(bs4)、Xpath(lxml)【这些都是函数库哦】等网页解析工具; 开始一些简单的网站爬取【可以直接访...原创 2019-11-27 10:33:10 · 419 阅读 · 0 评论