爬虫
winter_dong
等待秃顶的那一天
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫:百度贴吧_python吧
import urllib.requestimport urllib.parseimport osdef create_request(barname,page,base_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...原创 2018-06-24 19:58:17 · 374 阅读 · 0 评论 -
Handler处理器的使用
import urllib.requestimport urllib.parse"""request 封装 对url的高级定制opener封装 对请求过程的高级定制 urllib.request.urlopen()opener封装需要依赖于一个handler对象handle是一个类,提供HTTPHandle\HTTPCookieProcesser\HTTPProxyHandler...原创 2018-06-24 21:59:05 · 1401 阅读 · 1 评论 -
Proxy代理
import urllib.requestimport urllib.parse# 配置代理对象,把协议作为键,主机和端口号为值handler = urllib.request.ProxyHandler(proxies={'http':'ip:端口'})url = 'https://www.baidu.com/s?wd=ip'headers = { 'User-Agent':...原创 2018-06-25 21:25:36 · 207 阅读 · 0 评论 -
浏览器模拟ios设备点击
# coding:utf-8import timefrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysoption = webdriver.ChromeOptions()mobile_emulation = {"deviceName":"iPhone X"}option.add_e...原创 2018-09-04 14:26:40 · 1766 阅读 · 0 评论 -
爬取百度热搜榜小案例
import requestsfrom bs4 import BeautifulSoupimport timeimport csvimport datetime# 得到当前的时间nowTime = datetime.datetime.now().strftime('%Y-%m-%d %H-%M-%S')# 创建列表储存新闻标题new_title = []# 创建列表储存新闻跳...原创 2018-09-11 14:10:11 · 1812 阅读 · 2 评论 -
scrapy中对随机代理中间件的处理
import redisfrom scrapy.exceptions import NotConfiguredclass RandomProxyMiddleware(object): """ 利用scrapy本身的proxy middle机制,实现一个随机IP代理池,并且可以动态的删除有问题的IP """ def __init__(self, setti...原创 2018-09-06 13:48:54 · 1758 阅读 · 3 评论 -
图片验证码的识别
import tesserocrfrom PIL import Image# 1.识别验证码image = Image.open('code.jpg')# result = tesserocr.image_to_text(image)# print(result)# 2.直接将图片文件转换为字符串# print(tesserocr.file_to_text('code.jpg')...原创 2018-09-10 18:03:50 · 448 阅读 · 0 评论 -
selenium模拟爬取淘宝指定类商品
import pymysqlfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_condi...原创 2018-09-14 15:10:54 · 700 阅读 · 1 评论 -
爬虫小技巧
链接:https://www.cnblogs.com/c-x-a/p/10334624.html原创 2019-01-31 15:14:48 · 277 阅读 · 0 评论
分享