工具
这个需求做不l
精通所有编程语言,擅长各种前后台及各类算法,总之没不会的.....如有任何问题请私信我。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Seaborn的入门和使用教程
Seaborn的使用简介Seaborn 是以 matplotlib为底层,更容易定制化作图的Python库。Seaborn 其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易。在大多数情况下使用Seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图,换句话说,matplotlib更加灵活,可定制化,而seaborn像是更高级的封装,使用方便快捷。应该把Seaborn视为matplotlib的补充,而不是替代物。安装pip in原创 2020-07-23 23:07:47 · 2290 阅读 · 0 评论 -
Matplotlib的使用
Matplotlib的使用Matplotlib 是一个 Python 的 2D绘图库。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。为什么学习Matplotlib可让数据可视化,更直观的真实给用户。使数据更加客观、更具有说服力。Matplotlib是Python的库,又是开发中常用的库Matplotlib的安装pip install matplotlibMatplotlib的基本使用import numpy as np原创 2020-07-23 11:27:38 · 165 阅读 · 0 评论 -
Splash的使用入门
1. Splash介绍Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取2. 安装2.1 安装docker2.2 拉取镜像docker pull scrapinghub/splash2.3 用docker运行scrapinghub/splashdocker run -p 8050:8050 scrapinghub/splash2.4 查看效果我们在原创 2020-07-14 15:51:11 · 4080 阅读 · 0 评论 -
Scrapy 框架的settings的设置
Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置,以应用或者禁用这些设置项BOT_NAME默认: ‘scrapybot’Scrapy项目实现的bot的名字。用来构造默认 User-Agent,同时也用来log。当你使用 startproject 命令创建项目时其也被自动赋值。CONCURRENT_ITEMS默认: 100Item Processor(即 Item Pipeline) 同时处理(每个response的)i原创 2020-07-13 18:39:26 · 628 阅读 · 0 评论 -
Selenium与PhantomJS的安装与使用教程
1. SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要原创 2020-07-12 18:35:03 · 697 阅读 · 0 评论 -
Python数据提取----JsonPath
1. JSON与JsonPATHJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 中自带了JSON模块,直接import json就可以使用了。官方文档:http://docs.python.org/library/json.htmlJson在线解析网站:http://www.js原创 2020-07-12 15:20:54 · 280 阅读 · 0 评论 -
Python数据提取----PyQuery
from pyquery import PyQuery as pq1.可加载一段HTML字符串,或一个HTML文件,或是一个url地址,d=pq(“hello”)d=pq(filename=path_to_html_file)d=pq(url=‘http://www.baidu.com’)注意:此处url似乎必须写全2.html()和text() ——获取相应的HTML块或文本块,p=pq(“hello”)p(‘head’).html()#返回hellop(‘head’).text()#返回原创 2020-07-10 17:01:23 · 366 阅读 · 0 评论 -
Python数据提取----XPath
1. 介绍之前 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath官网 http://lxml.de/index.htmlw3c http://www.w3school.com.cn/xpath/index.asp2. 安装pip install lxml3. XPath语法XPath 是一门在原创 2020-07-10 15:43:54 · 341 阅读 · 0 评论 -
Python数据提取----Beautiful Soup
1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就原创 2020-07-10 14:50:44 · 330 阅读 · 0 评论 -
Python数据提取----正则表达式
1. 提取数据在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容原创 2020-07-10 14:22:51 · 665 阅读 · 0 评论
分享