python爬虫
文章平均质量分 76
MKKKKAA
转行要趁早
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫-雪球咨询
需注意的点:1、雪球需要携带cookie才能访问,用session访问首页,拿到cookie保存后抓取数据;2、解析json是一开始遇到比较难的问题,经过多次尝试后,掌握了剥洋葱的方法,将字典层层剥开即可;源码import requestsheaders = { 'User-Agent': 'Mozilla/5.0'}session = requests.Session()main_url = 'https://xueqiu.com/'session.get(main_url,原创 2020-10-29 00:51:23 · 833 阅读 · 2 评论 -
python爬虫-高能异步执行
背景前几天看了网上的一个视频,将异步执行的,试了一下,效果杠杠的文章地址:https://www.cnblogs.com/bobo-zhang/p/10735140.html对比与上一篇非异步执行的放在一起测试,立竿见影非异步执行:-------非异步执行,爬取10个页面并写入本地,耗时3秒多异步执行:-------异步执行,爬取10个页面并写入本地,耗时仅0.4秒异步执行背景转载自博客园:博客网址:https://www.cnblogs.com/bobo-zhang/p/10735原创 2020-10-28 23:14:53 · 927 阅读 · 0 评论 -
python爬取糗百段子-非异步执行
记录最近在练习爬虫内容,慢慢记录源码import requestsfrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0'}page = input('请输入爬取页数:')url = 'https://www.qiushibaike.com/text/page/' + pagefp = open('./qiubai_download.txt', 'w', encoding='utf-8')resp = requests.g原创 2020-10-26 22:50:06 · 200 阅读 · 1 评论 -
python抓取图片并本地存储
一、注意事项1、抓取图片的代码较简单,有些网站拿到文字乱码,主要体现转化乱码的操作,encode(‘iso-8859-1’).decode(‘gbk’);2、用xpath进行标签解析二、源码import requestsfrom lxml import etreeimport os# 第一页网址:http://pic.netbian.com/4kqiche/index.html# 第二页开始的网址:http://pic.netbian.com/4kqiche/index_2.html#原创 2020-10-26 22:06:03 · 453 阅读 · 0 评论 -
python爬虫_Get_NIFDC_Data
@MKKKKAA一、目的本篇代码用于抓取中国食品药品检定研究院中抓取各地方批签发公示表,旨在用于交流学习,不作为商业用途,不涉及任何利益,任何与之相关的操作与作者无关。本人初学python,以此练手,代码多有不足,欢迎交流指正。二、说明目前中检院共有7个地方药检所和1个中检院,共8个大目录,每个大目录下有不同月份签发的公示表,存放在小目录,即单独的页面中。代码内已标注大部分注释,浏览基本无压力,如有错误,烦请评论指出,谢谢。三、所用到的网址截止发文日期,所用网址如下:大目录:中国食品药品原创 2020-10-18 17:37:38 · 512 阅读 · 5 评论
分享