
爬虫
文章平均质量分 56
Claroja
这个作者很懒,什么都没留下…
展开
-
爬虫之分析网页
分析动态网页原创 2017-05-21 23:46:11 · 804 阅读 · 0 评论 -
模拟登陆-隐藏字段
import requestsfrom bs4 import BeautifulSoupurl="https://passport.youkuaiyun.com/account/login" # 登录页的网址s = requests.Session() # 创建一个回话response = s.get(url) # 获得登录页面soup = BeautifulSoup(response...原创 2018-02-11 11:28:18 · 545 阅读 · 0 评论 -
python 爬虫应用
爬虫入门HTTP基础知识Requests库入门BeautifulSoup库入门selenium入门xpathPython 正则表达式 re模块 scrapyphantomjs相关APIpython requests库 APIPython BeautifulSoup库 APIselenium API爬虫应用网页数据采集策略 requests与bs4...原创 2018-02-09 13:27:21 · 916 阅读 · 0 评论 -
selenium API
WebDriverclass WebDriver(object): 方法属性 参数 描述 init self, command_executor='http://127.0.0.1:4444/wd/hub',desired_capabilities=None, browser_profile=None, proxy=None,keep_alive=Fals...翻译 2018-02-28 12:03:59 · 465 阅读 · 0 评论 -
phantomjs
Win 官网下载http://phantomjs.org/download.html 安装后配置环境变量。Linuxtar -xvf phantomjs-2.1.1-linux-x86_64.tar.bz2 mv phantomjs-2.1.1-linux-x86_64 /usr/local/share/phantomjs ln -s /usr/local/share/phant...原创 2018-04-09 09:36:23 · 224 阅读 · 2 评论 -
fiddler 页面介绍
fiddler页面介绍原创 2018-06-07 11:36:37 · 610 阅读 · 0 评论 -
chrome 设置user agent
chrome 设置user agent原创 2018-06-07 11:44:12 · 14876 阅读 · 0 评论 -
editthiscookie
修改cookie,可以用chrome浏览器模拟微信浏览器http://www.editthiscookie.com/start/原创 2018-06-07 11:46:36 · 3129 阅读 · 0 评论 -
scrapy.request
https://doc.scrapy.org/en/latest/topics/request-response.html#request-objects 参数 说明 describe url?(string) 需要请求的url the URL of this request callback?(callable) 回调函数 the funct...翻译 2018-09-04 16:59:37 · 319 阅读 · 0 评论 -
scrapy.response
url?(string) 所请求的url the URL of this response status?(integer) 请求的状态,200,404 the HTTP status of the response. Defaults to?200. headers?(dict) 返回的头 the headers of this respons...翻译 2018-09-04 17:01:45 · 814 阅读 · 0 评论 -
scrapy.spider
方法 描述 备注 name 定义spider名字的字符串(string),必须唯一 必须 allowed_domains 限定域名 可选 start_urls 起始urls custom_settings 当启动spider时,该设置将会覆盖项目级的设置. crawler 该属性在初始化class后...翻译 2018-09-04 17:04:17 · 341 阅读 · 0 评论 -
scrapy setting
参数 备注 描述 AWS_ACCESS_KEY_ID None 连接 Amazon Web services 的AWS access key AWS_SECRET_ACCESS_KEY None 连接 Amazon Web services 的AWS secret key BOT_NAME scrapybot’ Scrapy项目实...翻译 2018-09-04 17:06:19 · 249 阅读 · 0 评论 -
scrapy commandline
命令 描述 分类 scrapy startproject myproject 在myproject 目录中创建一个Scrapy项目 全局 scrapy genspider [-t template] 当前项目中创建spider。 项目 scrapy crawl 开起某个spider 项目 scrapy check [...翻译 2018-09-04 17:08:12 · 293 阅读 · 0 评论 -
查找标签
def find_all(self, name=None, attrs={}, recursive=True, text=None,limit=None, **kwargs)1.要查找具有某个属性的标签,尽量使用attrrs,而不要使用内置的标签,因为内置的标签有限. 比如find_all("div",class_="name"),写成find_all("div",{"class":"n...原创 2018-02-11 11:10:49 · 485 阅读 · 0 评论 -
scrapy 入门案例
1.创建爬虫项目scrapy startproject mySpider会生成以下目录scrapy.cfg :项目的配置文件mySpider/items.py :设置抓取数据的存储格式,字段.mySpider/pipelines.py :管道文件,用来连接数据库和保存文件mySpider/settings.py :配置文件,比如cookie,header,以及各种组件m...原创 2018-02-09 16:28:03 · 329 阅读 · 0 评论 -
Requests 入门
发送请求直接发送请求r = requests.get(“http://httpbin.org/get“) r = requests.put(“http://httpbin.org/put“) r = requests.delete(“http://httpbin.org/delete“) r = requests.head(“http://httpbin.org/get“) r原创 2017-05-23 17:18:33 · 757 阅读 · 0 评论 -
BeautifulSoup库入门
引入BeautifulSoupfrom bs4 import BeautifulSoupBeautifulSoup类构建BeautifulSoup对象soup = BeautifulSoup(open("index.html"))soup = BeautifulSoup("data")属性可以吧BeautifulSoup对象当成一个Tag对象s翻译 2017-05-23 17:21:09 · 776 阅读 · 0 评论 -
Python BeautifulSoup库 API
class PageElement(object) 方法 描述 def find_next(self, name=None, attrs={}, text=None, **kwargs) 返回匹配的第一项并显示它后一个标签 def find_all_next(self, name=None, attrs={}, text=None, limit=None,**原创 2017-05-26 10:08:52 · 1723 阅读 · 0 评论 -
爬虫之HTTP基础知识
基础知识HTTP = HyperText Transfer Protocol URI = Uniform Resource Identifier URL = Uniform Resource Locator URL解释完整的URL由这几个部分构成:scheme://host:port/path?query#hash: scheme:通信协议,常用的有http、https、原创 2017-05-23 16:51:57 · 724 阅读 · 0 评论 -
Requests API
http://docs.python-requests.org/zh_CN/latest/api.html发送请求requerts 参数 类型 描述 method str ‘get’/’post’等 url str 请求的网页,注意post的时候提交数据对应的页面是form的action params dict url里原创 2017-05-25 17:14:47 · 969 阅读 · 0 评论 -
网页数据采集策略
1.非结构化数据 正则表达式(re) Xpath(lxml) css选择器(bs4) 2.结构化数据 json(json) xml 3.动态html 动态页面 ajax:分析xhr javascript,jquery:请求的数据都是js加载之前的,所以要解析js(困难),或执行js(selenium)tips: 1.在使用css选择器时如何定位 通过find_all()原创 2018-01-31 09:26:11 · 1120 阅读 · 0 评论 -
selenium入门
1.简单的例子from selenium import webdriver # 导入浏览器驱动,用来连接浏览器from selenium.webdriver.common.keys import Keys # 按键捕捉driver = webdriver.Firefox() # 创建火狐浏览器的实例driver.get("http://www.python.org") # ...翻译 2018-01-31 10:07:22 · 1119 阅读 · 0 评论 -
request.post
requests.postrequests.post(url, data=None, json=None, **kwargs) 参数 类型 描述 url 字符串 请求的网页,对应的是form的action属性的值,而不是form所在的页面 data 字典 key是form的name属性对应的值,value是所填入的值,通过chrome审查元原创 2018-01-16 10:30:01 · 5299 阅读 · 0 评论 -
selenium
查看selenium支持的浏览器from selenium import webdriverhelp(webdriver) android (package) blackberry (package) chrome (package) common (package) edge (package) firefox (package) ie (package) ope...原创 2018-01-16 14:00:12 · 336 阅读 · 0 评论 -
requests与bs4编码
在使用requests库时,response对象的.text属性r.text 默认的response对象的encoding属性是None,所以在调用r.text解码的时候,request会猜它的编码 If Response.encoding is None, encoding will be guessed using chardet.encoding = None Enco原创 2018-01-17 14:32:01 · 1214 阅读 · 0 评论 -
open() api
1.点击设置 2.设置监听浏览器 3.设置端口 4.添加证书 5.添加证书 参考文献: http://blog.youkuaiyun.com/wpyily/article/details/72885586 http://blog.youkuaiyun.com/c406495762/article/details/76850843...原创 2018-02-09 13:39:45 · 367 阅读 · 0 评论 -
xpath
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 路径表达式 表达式 描述 示例 描述 tag 选取此节点所有子节点 div 选取div元素所有子节点 / 绝对路径,从根节点选取 /div 选取根节点下的div元素 // 相对路径...原创 2018-02-09 13:40:38 · 377 阅读 · 0 评论 -
scrapy.crawler.CrawlerProcess
https://doc.scrapy.org/en/latest/topics/api.html#crawler-api 方法 描述 其他 crawl(crawler_or_spidercls, *args, **kwargs) 根据传入的参数启动一个爬虫 crawlers 查看已经添加的爬虫 create_crawler(craw...翻译 2018-09-04 17:27:17 · 2681 阅读 · 0 评论