
爬虫
文章平均质量分 89
医然
天行健,君子以自强不息!
展开
-
Python Selenium 与 Pyppeteer 使用示例
0.基本:from selenium import webdriverdriver=webdriver.Firefox() #获得火狐浏览器对象,IE:.Ie(),谷歌:.Chrome()driver.get('http://www.baidu.com') #向浏览器发送网址driver.find_element_by_id('kw').send_keys('hello') #输入driver.f...原创 2018-07-08 13:38:55 · 1285 阅读 · 2 评论 -
python 小小的分布式爬虫
一, 编写URL管理器 与 数据存储器 URLManager.pyimport pickleimport hashlibimport codecsimport timeclass UrlManager(object): """ URL 管理器 """ def __init__(self): # 未爬取的 URL 集合 self.new_urls = self.load_pro...原创 2018-07-08 13:57:25 · 261 阅读 · 0 评论 -
python 下载文本_图片_视频
这里以下载图片为例:import requestsdef download_file(url,files): """ 下载普通文件,包括(文档,图片,音乐,视频)""" r = requests.get(url) chunk_size = 1024 with open (files,'wb') as f: for chunk in r.it...原创 2018-07-25 07:05:37 · 277 阅读 · 0 评论 -
python 登录网站
我使用的python库是 requests 没有安装的需要先安装! pip install requests这次测试的网站是抽屉新热榜,纯属学习,请勿恶意攻击;我的代码是这样的,如有不足,还请指教:import requests# 初始化一个session用来保存状态ses=requests.Session()# 登录需要用到的数据users={ 'phon...原创 2018-08-11 12:36:35 · 2688 阅读 · 0 评论 -
使用代理IP
代理IP可以自己去找,也可以去购买,这有一个免费代理ip网址:http://www.66ip.cn/下面是代码:ip = '220.160.23.136' # 代理IPport = '8888' # 端口号################## 一,使用urllib。 #################import urllibproxy_handler...原创 2018-08-12 12:25:22 · 767 阅读 · 0 评论 -
python html 解析与正则表达式
#正则表达式1.正则表达式的特殊字符^/$开始/结束 \w/\W匹配字母,数字,下划线/相反\s/\S匹配空白字符/相反 \d/D匹配数字/相反\b/\B匹配单词开始和结束的位置/相反 .匹配任意字符[m]匹配单个字符串 [m1m2...n]匹配多个字符串[m-n]匹配m-n区间的数字,字母 [^m]匹配除m以外的字符串()对正则表达式进行分组2.正则表达式中的常用限...原创 2018-06-30 00:55:29 · 4228 阅读 · 0 评论 -
Python 解析二维码 输出文本
一、安装pyzbar:pip install pyzbar二、示例代码如下:import osimport requestsfrom io import BytesIOfrom pyzbar import pyzbarfrom PIL import Image,ImageEnhancedef get_ewm(img_adds): """ 读取二维码的内容: img_...原创 2019-03-08 19:24:00 · 9609 阅读 · 1 评论