
python爬取网站
eval_request
喜好IT,最近=在学习python
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单的用scrapy登陆GitHub
import scrapyclass GitHub(scrapy.spider): name="github" allow_domains=['github.com'] start_urls=['https://github.com/login'] def parse(self,response): #如果还有其他需要提交的信息,可以使用xpath提取出他所在的标签的value...原创 2019-12-11 16:50:51 · 335 阅读 · 0 评论 -
IP代理池和Cookie池简单代码
import requests# url="http://httpbin.org/ip"# # response=requests.get(url=url)# # print(response.text)# proxy={# 'http':'125.42.148.190:8060'# }# response=requests.get(url=url,proxies=proxy)...原创 2019-11-12 13:40:45 · 447 阅读 · 0 评论 -
利用代理爬取搜狗微信文章
爬取淘宝美食操作流程:1.搜索关键字,利用selenium驱动浏览器搜索关键字,得到查询后的商品列表2.得到商品页码数,模拟翻页,得到后续页面的商品列表3.分析提取商品内容,利用pyquery分析源码,解析得到商品列表4.存储至mongodbfrom selenium import webdriverfrom selenium.common.exceptions import Time...原创 2019-10-21 09:17:09 · 358 阅读 · 0 评论 -
利用selenium爬取淘宝
爬取淘宝美食操作流程:1.搜索关键字,利用selenium驱动浏览器搜索关键字,得到查询后的商品列表2.得到商品页码数,模拟翻页,得到后续页面的商品列表3.分析提取商品内容,利用pyquery分析源码,解析得到商品列表4.存储至mongodbfrom selenium import webdriverfrom selenium.common.exceptions import Time...原创 2019-10-21 09:14:51 · 433 阅读 · 0 评论 -
利用正则爬取猫眼电影
爬取猫眼电影import jsonimport requestsfrom requests.exceptions import RequestExceptionimport redef get_one_page(url):#获取一个页面的信息 try: kv = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win6...原创 2019-10-21 09:12:53 · 324 阅读 · 0 评论 -
爬虫selenium库
–爬虫selenium库自动化测试工具,爬虫中来解决js渲染问题基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import...原创 2019-10-16 11:04:41 · 229 阅读 · 0 评论 -
爬虫PyQuery
–爬虫pyquery字符串初始化html=""" ......""""from pyquery import PyQuery as pqdoc=pq(html)print(doc('li')) --其实就是个css选择器,选出了所有的li标签url初始化from pyquery import PyQuery as pqdoc=pq(url="http://www.baidu...原创 2019-10-16 11:00:49 · 308 阅读 · 0 评论 -
爬虫入门
–爬虫请求网站并提取数据的自动化程序get与post的不同get会把请求的参数放在url里,post会提交一个表单url:统一资源定位符request发送的请求一般都是document类型,网页中的图片是二次加载的request:1.请求方式(get,post).2.请求url.3.请求头:User-Agent.4.请求体:请求时额外携带的数据相应状态:200代表成功,301是跳转,...原创 2019-10-16 10:57:32 · 681 阅读 · 0 评论