
Python爬虫
cuicui_ruirui
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python 中被判定为False的对象
1.None2.False3.数值中的0,包括 0.0,0j(虚数)4.空序列,,包括空字符串‘ ’ 空元组() 空列表 [] 空字典{}原创 2020-04-09 16:37:04 · 843 阅读 · 0 评论 -
Python 爬虫
一、为什么要爬虫90%的数据不在我们的数据库里,散落在网络世界,以网页资料形式呈现,即为非结构化数据,他们没有固定的数据格式,必须通过ETL(Extract,Transformation,Loading)工具将数据转化为结构化数据才能取用二、ETLE:Extract,数据抽取 (原始资料,Raw Data)T:Transformation:数据转化 (利用ETL脚本)...原创 2020-03-25 23:19:05 · 1314 阅读 · 0 评论 -
python爬虫得到的网址带有反斜杠\
代码如下import requestsimport demjsonimport jsonuuu=requests.get('https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=3&encode=utf-8&ca...原创 2020-04-06 20:27:59 · 1600 阅读 · 1 评论 -
python ValueError: dictionary update sequence element #0 has length 1; 2 is required错误解决方法
这是我的爬虫代码,虽然说json.loads()可以把字符串转化成字典,但是我使用了之后发现uu3还是sttr格式,这个时候就想到用dict将字符串转化成字典,然后就报错了。uuu=requests.get('https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1...原创 2020-04-06 17:46:52 · 7469 阅读 · 1 评论 -
python rstrip()和lstrip()的注意事项
一、之前我写的一段代码里成功用encode解决了因为json格式不正确而导致的报错:json.decoder.JSONDecodeError: Extra data: line 1 column 9 (char 8)。本以为万事大吉,可以使用json.loads转化出来的字典格式了,但是报错了,说是u1不是字典格式的,我type(u1)之后发现还真不是dict,而是str。然后去找了一下json字...原创 2020-04-06 17:28:23 · 737 阅读 · 0 评论 -
json字符串使用json.loads方法转化为字典格式的注意事项
一、如果要json字符串转化为字典格式,这个字符串首先需要基本满足json的格式,即“key”:value的形式,且左右两边需要分别用{}封闭字符串。字符串转化为字典可以用json.loads()方法二、易错点str1 = "{'code': '0000', 'data': {'id': 413}, 'msg': None}"str2 = '{"code": "0000", "data...原创 2020-04-06 16:55:04 · 3808 阅读 · 1 评论 -
爬虫报错:json.decoder.JSONDecodeError: Extra data: line 1 column 9 (char 8)
这个问题绝了,害我凌晨冒着生命危险一直在百度。在爬虫的时候,因为需要获取的内容是存放在JS里的,需要用json将内容搞下来,这个文件preview下是酱紫滴。红框勾住的部分是javascript函数部分,不能包含在json内出错代码是这样的:可以看出来,我原本的思路是获取到网页的文本之后,将json文件外围的javascript的函数try{feedCardJsonpCallb...原创 2020-04-06 00:31:06 · 7309 阅读 · 8 评论 -
python爬虫 requets设置headers目的
1.设置headers目的在请求网页爬取的时候输出的text信息中会出现抱歉,无法访问等字眼,这就是网页设置了禁止爬取。headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据对反爬虫网页,可以设置一些headers信息,模拟成浏览器去访问网站2.查看headers谷歌浏览器右键 检查,点 Network,刷新页面...原创 2020-04-03 20:50:30 · 1121 阅读 · 1 评论 -
Python爬虫时报错Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available)
网上找到的解决办法有三个,我是讲这三个条件都满足了之后就不再报错了1.检查有没有安装requests的依赖安装包pip install cryptographypip install pyOpenSSLpip install certifi我都有,然后尝试第二种2.我原本的代码是这样的import requestshtl=requests.get('https:/...原创 2020-03-25 18:49:01 · 3418 阅读 · 2 评论