
爬虫
大西觉得海星
这个作者很懒,什么都没留下…
展开
-
把爵迹弄下来看看
import pdbimport requestsimport scheduleimport spacyimport timefrom lxml import etreedef text_info(url): ret = "" r = requests.get(url) content = r.content html = etree.HTML(content) text_info_xpath = html.xpath('//html/body/d.原创 2020-07-03 16:56:16 · 282 阅读 · 0 评论 -
xpath的使用方法, 爬虫实例
# -*- coding:utf-8 -*-""" 爬虫 创业邦 创业公司信息爬取网页url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'爬取页面中的创业公司,融资阶段,创业领域,成立时间和创业公司的链接信息。使用到requests, json, codecs, lxml等库requests用于访问页面,获取页面的源代码jo...原创 2018-08-26 10:19:29 · 1884 阅读 · 1 评论 -
lxml.xpath用法
# -*- coding: utf-8 -*-import requestsfrom lxml import etree"""url = 'http://www.baidu.com'r = requests.get(url, timeout=5)r.encoding = r.apparent_encodingprint r.status_codetext = r.text...原创 2018-07-30 14:36:04 · 921 阅读 · 0 评论 -
requests.session()处理网页cookie
# 实例化session。# session()中方法和requests()中一样# session.get() session.post()session = requests.session()# 使用session发送post请求获取cookie保存到本地session中。# 以人人网登录为例。post_url = "http://www.renren.com/PLogin...原创 2018-05-02 22:19:43 · 2249 阅读 · 0 评论 -
网络爬虫实例
"""淘宝商品信息定向爬取"""import requestsimport redef get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding retu...原创 2018-04-21 09:40:19 · 471 阅读 · 0 评论 -
网络爬虫_re正则表达式
"""正则表达式re概念 检索符合某个规则的字符串。 通用的字符串表达框架。 简洁表达一组字符串。常用 表达文本类型的特征。 同时查找或替换一组字符串。 匹配字符串全部或部分。"""# --------------------------------------"""正则表达式语法常用操作符 . # 表示任何单字符...原创 2018-04-21 08:12:08 · 474 阅读 · 0 评论 -
Phantomjs和selenium安装方法
下载 安装http://phantomjs.org/download.html解压 添加bin目录到环境变量C:\phantomjs-2.1.1-windows\bin cmd powershell里输入phantomjs -v返回正确的版本号说明安装成功 自动化测试工具selenium安装方法 pip安装最新版本 3.0.1版本seleniumpip in...原创 2018-08-31 23:41:55 · 355 阅读 · 0 评论 -
selenium常用方法 不断更新
添加chromedriver如果chromedriver在环境变量里,不用添加chromedriver的路径。driver = webdriver.Chrome()driver = webdriver.Chrome(chromedriver_path)常用函数back() # 返回/后退close() # 关闭当前标签current_url # 当前标签的网址 f...原创 2018-09-12 11:05:21 · 514 阅读 · 0 评论 -
lxml一些函数说明
etree篇from lxml import etreehtml篇from lxml import htmlfromstring(content)如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset,对源码进行解码。<meta http-equiv="content-type" ...原创 2019-03-07 10:30:12 · 475 阅读 · 0 评论