
python爬虫自学
自学记录
在逃扇贝
数学专业,前游戏测试工程师
展开
-
【python爬虫自学记录】【8】-异常处理,异常状态码,异常处理实战,浏览器header伪装与实战
部分异常状态码URLError与HTTPErrorURLError出现原因:1.连不上服务器2.远程URL不存在3.无网络4.触发了HTTPError异常处理示例url ="https://www.douban.com/group/topic/55202938/"try: urllib.request.urlopen(url)except urllib.error.URLError as e: if hasattr(e,"code"): print(e原创 2020-07-26 16:58:24 · 192 阅读 · 0 评论 -
【python爬虫自学记录】【7】-urllib基础,超时设置,自动模拟HTTP请求get请求实战和post请求实战
urllib基础urlretrieve(网站,本地存储地址)直接下载网页到本地import urllib.requesturllib.request.urlretrieve("http://www.baidu.com","D:\\pycharmprojects\\untitled\\dld.html")urlcleanup()清除缓存import urllib.requesturllib.request.urlcleanup()urlinfo()查看网页相应简介信息file = u原创 2020-07-24 18:48:46 · 343 阅读 · 0 评论 -
【python爬虫自学记录】【6】简单爬虫编写-从一个优快云页面中把QQ提取出来
简单爬虫编写从一个优快云页面中把QQ提取出来页面:https://edu.youkuaiyun.com/huiyiCourse/detail/253import urllib.requestimport redata = urllib.request.urlopen("https://edu.youkuaiyun.com/huiyiCourse/detail/253").read().decode('utf-8')pat = "<p>(\d{9})</p>"rst = re.compile原创 2020-07-24 18:27:43 · 198 阅读 · 0 评论 -
【python爬虫自学记录】【5】-正则表达式,原子,元字符,贪婪模式与懒惰模式,正则表达式函数,常见的正则实例
正则表达式原子是正则表达式中最基本的组成单位,每个正则表达式中都需要至少包含一个原子。常见的原子类型有:普通字符作为原子的情况import restring="zaitaoshanbei"pat="shan"rst=re.search(pat,string)print(rst)输出:<re.Match object; span=(6, 10), match=‘shan’>非打印字符作为原子#\n换行符,\t制表符 ''''''可以引入换行符string='''原创 2020-07-22 20:36:27 · 248 阅读 · 0 评论 -
【python爬虫自学记录】【4】如何查看模块功能,网络爬虫概念
如何查看模块功能1.helphelp()2.看源代码3.查看文档网络爬虫概念是什么?自动从互联网中定向或者不定项采集信息的一种程序,常用的是通用网络爬虫或者聚焦网络爬虫能够做什么?通用网络爬虫可以运用在搜索引擎中,自动采集网页,提取,计算,收录聚焦网络爬虫可以从互联网中自动采集信息,并且代替我们筛选出相关数据。大概可以用在以下方面:1.搜索引擎2.采集金融数据3.采集商品数据4.自动过滤广告5.采集竞争对手的客户数据6.采集行业相关数据,进行数据分析...原创 2020-07-22 17:58:46 · 169 阅读 · 0 评论 -
【python爬虫自学记录】【3】-面向对象编程概念,类,对象,构造函数,方法,继承
面向对象编程概念:把整个世界看成各种不同类,一个程序里面会有一些类和面向过程的区别:面向对象适合开发中大型项目,开发效率更高,更接近人的思维面向过程适合中小型项目,效率相对低类:具有某种特征的事务的集合(群体,比如人是会说话,会思考的一个集合)对象:群体(类)里面的个体类是抽象的,对象是具体的通过python创造一个类,或者对象class cl1: #声明一个cl1的类 pass #占位语句a=cl1() #实例化一个类,现在a成为了对象构造函数#self:在类中原创 2020-07-22 17:02:17 · 169 阅读 · 0 评论 -
【python爬虫自学记录】【2】-函数,模块,文件打开读写关闭
函数参数:分为形参,实参形参:函数定义的时候使用的参数一般是形参实参:函数调用的时候使用的参数是实参调用函数:函数名(参数)fun(a)#比较大小函数def func1(a,b): if(a>b): print(str(a)+">"+str(b)) elif(a==b): print(str(a)+"="+str(b)) else: print(str(a)+"<"+str(b))func1(1,1)原创 2020-07-22 16:16:27 · 131 阅读 · 0 评论 -
【python爬虫自学记录】【1】-python基础语法与if,while,for,break,continue,乘法口诀
基础语法python输出print("hello")字符串a = 'abc'a2 = "abcd"a3 = '''abcde'''列表-中括号,提供存储多个元素的地方,每个元素都可以重新赋值b = [1,"zb",9]元组-小括号,储存多个元素,里面的元素不能重新赋值c = (1,"bn",41)字典-{键:值,键:值,…}d = {"abc":1,"bcd":2}e = {"name":"zengzeng","sex":"girl","age":18}字典取值格式:字原创 2020-07-21 18:40:05 · 229 阅读 · 0 评论