
python爬虫学习
qq_43355847
python
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
最新美团网数据抓取实战。
写在前面的话,还处于爬虫初期,很多东西一知半解,边学边记录,边学边做。代码写的自己都看不下去了。。。。 本期重点,美团网商铺数据,暂只抓了美食商家数据。先上战果,暂只抓了10万条,一小时左右,未对数据去重。大概思路如下,先抓取各个省份城市,然后获取其经纬度,最后构造参数,翻页拿取数据。抓取结果 获取各个城市名字,id。第一个地址(https://www.meituan.com/ptapi/get...原创 2019-01-24 19:04:19 · 2452 阅读 · 0 评论 -
爬虫url去重管理
用于记录学习爬虫过程中遇到的断点续爬、url去重问题学习 。 环境 redis python 第三方库 redis 。安装 pip install redis 核心功能,基于redis里面set类型,达到去重,插入,记录的小功能。 代理实现: import redis class UrlManager: def __init__(spider_name='',host='127.0.0....原创 2019-01-20 21:47:29 · 531 阅读 · 0 评论 -
爬虫url去重(二)
还是关于去重,想着有些请求可能失败以后,虽然回滚了当前爬取失败的url,可是要是此url一直请求失败,应该是要删除的,重新学习了一边基础知识。 # -*- coding: utf-8 -*- import redis class UrlOption(object): ''' 这是一个爬虫的url管理器类 ''' def __init__(self,s...原创 2019-01-21 23:41:36 · 402 阅读 · 0 评论 -
uiautomator2简单使用记录。
开始之前大概了解一下,这个目前可以用于app端一些爬虫使用,调试不叫方便,配合mitmproxy使用,远胜于appium。appium环境太复杂。 首先是安装依赖库。 adb传送门百度网盘。提取码:lfc7 pip install --pre uiautomator2 pip install pillow 需要安卓adb环境,并且确保已经启动adb。 如果需要wifi调试需要安装pip ins...原创 2019-01-27 13:59:37 · 1139 阅读 · 0 评论 -
使用python+pyqt5制作exe文件,并支持pdf转换,图片转换为py文件
出于学习的目的,以前只会python爬虫方面的一些知识,这次干脆来个大整合,用pyqt5生成exe版爬虫,加入一些常用的小功能,期待后期完善。 下面是界面,以及些许小功能。 百度网盘提取码:uvx6 支持pdf转换为txt文件 支持pdf转换为word文件 支持图片文件转换为py文件,方便打包exe使用。 F,t_70) pdf功能如下图 都是简单的小功能,需要联网使用,否则打开失败(因为...原创 2019-02-27 20:41:03 · 599 阅读 · 0 评论