
数据处理、分析
枪枪枪
见贤思齐焉,见不贤而内自省也。
君子生非异也,善假于物也。
君子博学而日参省乎己,则知明而行无过矣。
展开
-
Pandas使用记录
文章目录pandas.DataFramedtype参数apply函数多列计算loc函数round函数pandas.DataFrameParametersdatandarray (structured or homogeneous), Iterable, dict, or DataFrameDict can contain Series, arrays, constants, or list-like objects.Changed in version 0.23.0: If data is a原创 2020-07-13 23:17:44 · 898 阅读 · 0 评论 -
51Job行业分类和行业编号汇总,格式:Json
[{"industry_category_name": "计算机/互联网/通信/电子", "industry_category_code": "01", "industry_name": "计算机软件", "industry_code": "01"}, {"industry_category_name": "计算机/互联网/通信/电子", "industry_category_code": "01", "industry_name": "计算机硬件", "industry_code": "37"}, {"i原创 2020-06-27 20:18:38 · 2755 阅读 · 1 评论 -
Python re 使用记录
文章目录规则注意常用表达式规则元字符匹配内容.匹配除换行符以外的任意字符\w匹配字母、数字、下划线\s匹配任意的空白符,相当于[\n\t\r\f]\S匹配非空字符\d匹配数字\D匹配非数字\A匹配字符串开头\Z匹配字符串结尾,如果存在换行,同时还会匹配换行符\n匹配一个换行符\t匹配一个制表符\b匹配一个单词的结尾^匹配字符串的开始$匹配字符串的结尾\W匹配非字母或数字或下划线原创 2020-06-11 13:49:13 · 598 阅读 · 0 评论 -
Splash使用记录
文章目录一、介绍二、知识点1. Lua脚本1.1 介绍1.2 使用2. Splash API2.1 介绍2.2 使用1.render.html2.render.png3.execute一、介绍1.提供JavaScript渲染服务2.带有HTTP API的轻量级浏览器3.对接了Python中的Twisted和QT库Splash文档:传送门二、知识点1. Lua脚本1.1 介绍Lua 是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放, 其设计目的是为了嵌入应用程序中,从而为应用程序原创 2020-06-06 16:34:10 · 297 阅读 · 0 评论 -
Scrapy快速入门与使用
文章目录一、基本应用二、知识点1.理解Downloader Middleware三、实用技巧1.定制user-agent方法1方法2 (推荐)一、基本应用(PS:图片取自百度搜图,图片上的水印有些糊,看不清来源了.)要了解Scrapy框架,从这个图出发,理解很轻松.1.新建scrapy项目: scrapy startproject [项目名]2.在项目内新建Spider(这里定义了爬取的逻辑和解析网页的规则)scrapy genspider [Spider名称] [要爬取的域名]二、知原创 2020-05-30 22:33:15 · 498 阅读 · 1 评论 -
获取linkedin上指定公司下的职员信息
前言看到了一个很有意思的爬虫思路,在这里实践一下。爬取过程中控制请求的频率,仅获取少量数据用以验证程序逻辑是否合理参考资料博文链接:https://blog.youkuaiyun.com/bone_ace/article/details/71055153github链接:https://github.com/LiuXingMing/LinkedinSpider思路我这里使用的是原作者的思路三...原创 2020-05-02 12:24:28 · 4363 阅读 · 1 评论 -
对爬取51job中用到的技巧的分析、记录
好吧,又到了一学期的期末,又遇课程设计,不过还好,课程设计比较简单,爬取51job有关大数据的工作,并进行分析。在这里做一个记录。主要思路是在网上找到的一篇博文,之前也做过类似的东西,本身没有什么难度,这里我就将细节细细的过一遍,巩固一下所学吧参考的博文的链接https://blog.youkuaiyun.com/lbship/article/details/79452459这里搜索的关键词为:数...原创 2019-06-10 22:48:41 · 3683 阅读 · 5 评论 -
将列表内字符类型的元素,转换为int型或float型
今天从Series中获取了索引print(type(low_salary_count.index))print(low_salary_count.index)low_list=list(low_salary_count.index)print(low_list)>>>>Index(['8', '6', '10', '15', '20', '12', '25',...原创 2019-06-10 22:56:35 · 12205 阅读 · 3 评论 -
分析网页信息时遇到嵌套html结构该怎么办?
关键词:爬虫、iframe/frame、网页结构、html、selenium、webdriver遇到的问题遇到的网页就像图中的那样,在使用webdriver.page_source()方法获取网页的html内容时,默认获取的是框架1中的内容,嵌套的内容是获取不到的。概念上讲,二者相互独立,是两个html文档树。接下来先了解一下iframe/frame标签的作用:iframe 标签定义和...原创 2019-06-28 14:44:06 · 569 阅读 · 0 评论