
Python
来者不是客
生有热烈,藏与俗常
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
初识爬虫 - scrapy 爬取 51 (一)
刚学会了建 scrapy 框架,当然就忍不住想去练练手了,就挑个 51 job 去了解一下职位需求情况。前面我们已经说了如何去创建一个 scrapy 框架,以及改一下 setting 配置文件,这里我们还要先再改一下 setting 文件:改这里是因为现在很多网站都设置了反爬虫的保护机制,如果我们不加自己设的 user-agent ,就很容易被 “ban” ,从而爬取不到我们所要的数据...原创 2020-06-19 22:36:25 · 906 阅读 · 0 评论 -
初识爬虫 - scrapy 爬取 51 (二)
上一篇简单介绍了通过使用 scrapy 爬取 51 职位信息,也成功爬取了下来,包括下一页直到最后的信息都能获取到,这里就简述一下如何将爬取的内容存到数据库中,用的是 mysql 数据库。这代码是好几个月之前就写的,但现在我电脑上的 mysql 好像出了点问题,打不开了,我就不重新下了,这里也就放不了爬到数据库中后的效果图了。至于代码的正确性应该是没问题的,当时运行没问题,数据库里也成功显示了,之后没怎么动过,应该还是可以的。下面进入正题:我们新建一个包用来定义数据库连接的:关于里面连接数据库的原创 2020-06-19 22:36:02 · 439 阅读 · 0 评论 -
初识爬虫 - 腾讯招聘
对于腾讯招聘这样的一个界面:以及点进去对岗位的进一步介绍:我们需要爬取的是内容是每个岗位的名称、岗位分类、工作职责及工作要求,大约爬取一百个吧,将爬取到的数据保存到 txt 文件中。下面是正文:首先看爬取的要求及网页界面我们知道,单靠表面那个网页不行,没有 “工作要求” 数据,而 “工作要求” 这一项的数据在深一层的网页中,或者说深一层的网页中已经包含了全部所要爬取的内容,但很显然,深一层的网页是跟表面那个网页有联系的,所以需要我们找到两者之间的关系;另外在外层网页中,我们需要爬取到一百原创 2020-06-13 12:00:26 · 657 阅读 · 1 评论 -
初识 pyhton - 画雷达图
import matplotlib.pyplot as pltimport numpy as np# 雷达图plt.figure()dataLenth = 5 #把整个圆切成5份;angles = np.linspace(0, 2*np.pi, dataLenth, endpoint=False) #角度设置plt.rcParams['font.sans-serif'] = 'SimHei' #字体设置labels = ['生存', '输出', '团.原创 2020-06-12 10:47:39 · 409 阅读 · 1 评论 -
初识 python - KMeans 简单聚类(二)
尽管老师教的这个 KMeans 聚类的使用太浅显了,但还是笔记做全吧,说不准在哪能用到。上一篇是对客户的一些数据进行了简单的聚类分析,这一篇关于聚类的使用和前面差不多一样,还是那几行,不过是换了个例子。对这个网页的球员数据进行聚类,根据数据将其位置分为三类:后卫,中锋,前锋(我对篮球机制不是很熟悉,更搞不懂这次的划分。。)这次写的代码是比较系统,里面的知识点基本在前面也都说过了,像数据爬取,xpath,文件保存与读取,可视化等这些,唯一新的知识就是 csv 文件的保存 ,这个在里面也容易理解(.原创 2020-06-12 09:51:59 · 499 阅读 · 0 评论 -
初识 pyhton - KMeans 简单聚类(一)
这篇是当时小学期的时候跟着老师学的一点,虽说是 KMeans 算法的使用,但使用的太浅显了,代码就仅几行,后来我去专门找了下关于 KMeans 聚类的博客,发现确实是老师讲的太少了。但由于时间关系,暂时没时间去深入学了,这里就放一下当时学的那一点。开始之前先放一个要用到的文件:提取码 : u47s。对于这样一个表格数据:需要做的是对这一些数据进行聚类,划分为三类:超级vip客户,vip 客户 以及普通用户。下面进入正题:一、读取数据import pandas as pddata .原创 2020-06-12 09:05:46 · 337 阅读 · 0 评论 -
初识 python - DataFrame 类型及其简单使用
目录1、DataFrame 的创建2、DataFrame 属性3、DataFrame 的使用4、csv 文件的处理使用1)、处理时间序列2)、统计分析开始之前先放两个要用到的文件,一个是 excel 文件:提取码: y6ye;另一个是 csv 文件:提取码 : oidb。1、DataFrame 的创建import pandas as pddata = pd.DataFrame({'姓名':['s1','s2','s3'], '年龄'...原创 2020-06-11 23:49:21 · 838 阅读 · 1 评论 -
初识 python - 数组及其简单使用(二)
前面介绍了数组的创建、统计、运算及切片等简单使用,这里是对前面数组的一个小实战,见下图:对于这样的一个 excel 表格信息,需要求得以下内容:1)、各部门的员工数 ;2)、员工流失率 ;3)、平均薪资 ;4)、平均工作年限 ; 5)、时间最久的三名员工 ; 6)、员工整体满意度 。如果想要练习的,Excel 表:提取码: y6ye。首先我们拿到这样一个 excel 表,要想对它进行操作,那首先得把里面的数据读出来,另外要想办法把它变成可操作的格式,比如数组。# 数据清洗import..原创 2020-06-11 23:04:51 · 230 阅读 · 0 评论 -
初识 python - 数组及其简单使用(一)
1、创建数组# 数值统计模块import numpy as np# 一维arr1 = np.array([1,2,3])# 二维(看中括号的层数):arr2 = np.array([[0,0,0],[1,1,1],[2,2,2]])print(arr1)2、数组的属性print('结构: ',arr2.shape)print('维度: ',arr2.ndim)print('元素个数: ',arr2.size)3、数组的运算arr3 = np....原创 2020-06-11 22:19:32 · 833 阅读 · 0 评论 -
初识爬虫 - xpath 简单应用(扇贝单词)
今天跟着老师爬取扇贝单词的网页版,把网页内的单词及其翻译爬取到本地,并保存成 txt 文件,网页是这样的:说一句题外话,真不知道老师咋弄到的这个网页,我自己找怎么也没找到老师的这个界面。先给你们网页链接:扇贝单词。那么下面进入正题:开始同以往一样,导入包,获取 URL ,发起请求,获得响应:url = 'https://www.shanbay.com/wordlist/110521/232414/?page=1'response = requests.get(url=url).t.原创 2020-06-10 22:21:26 · 1077 阅读 · 0 评论 -
初识爬虫 - Scrapy 框架入门
1、简介爬虫程序是数据采集技术领域的一个具象表现形式,其具体主要应用在对网络数据的获取。除了爬虫外,数据采集还有传感器数据采集、数据库及资源文件采集等很多的方式。爬虫编写的常见方式及常用模块库(框架):原生编写(Urllib 系列模块 ,requests模块 ,Re模块),成熟框架(Scrapy爬虫框架 ,BS4爬虫框架)。scrapy 框架的工作原理:scrapy 框架是一个为了爬...原创 2020-04-20 21:37:54 · 363 阅读 · 0 评论 -
初识爬虫 - 小小爬虫
刚开始跟着老师学了一点爬虫,这里做下笔记。1、简单入门 - 爬取百度首页:1)、先导入包模块import requests2)、准备爬取工作(比如目标网址)url = 'https://www.baidu.com/'3)、开始发起爬取请求response = requests.get(url=url)4)、查看响应内容print(response.tex...原创 2020-04-20 12:17:05 · 708 阅读 · 0 评论 -
初识爬虫 - 豆瓣电影
今天来说一下爬取豆瓣电影,爬取这样的一个页面内容:好了,进入正题,先按照我们以前的做法,准备目标网站: url='https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action='发起请求,获取响应:response = ...原创 2020-04-20 11:50:55 · 543 阅读 · 0 评论 -
初识 python - xpath 全解
目录1、简介2、选取节点3、谓语4、通配符5、多路径选择6、xpath 轴7、常用的功能函数1、简介xpath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。xpath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。起初xpath 的提出...原创 2020-04-17 15:47:09 · 546 阅读 · 0 评论 -
初识 python - 简单洗牌游戏
刚学了一点 python 基础知识,现跟着老师写一个简单的洗牌游戏:# 实现 52 张牌的随机存取import randomclass PokerGame(): # 定义两个类成员,类似于 java 中的 static 修饰 color = ['黑桃','红桃','方块','梅花'] poker = ['A','2','3','4','5','6','7','...原创 2020-04-14 00:07:21 · 423 阅读 · 0 评论 -
初识 python - 简单应用之石头剪刀布
刚入门,写了个小应用练练手。import randomprint("游戏开始!")print("1、进入游戏")print("2、退出游戏")choose = input("请输入选项:") # input 接受用户键盘输入,返回的是字符串if __name__ == "__main__" : # 表示程序的入口,相当于 java中的 public static vo...原创 2020-04-11 17:28:33 · 475 阅读 · 0 评论 -
初识 python - 面向对象编程
1、编程模式的变迁同其他语言一样,python编程模式发展也是经历了从面向过程编程 ->函数编程 -> 面向对象编程 。这里再稍微介绍一下:面向过程:根据业务逻辑从上到下写垒代码 ;函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可 ;面向对象:对函数进行分类和封装,让开发“更快更好更强…” 。面向过程编程最易被初学者接受,其往往用一长段代码来实现指定功能,...原创 2020-04-11 15:38:25 · 725 阅读 · 0 评论 -
初识 python - 运算符与表达式
目录运算符1、算术运算符2、比较运算符3、赋值运算符4、逻辑运算符5、位运算符6、成员运算符7、身份运算符· is 与 == 的区别· 扩展8、运算符的优先级运算符在我们日常生活中,经常用到 +、-、*、/ 这些统称为运算符,操作数 与 运算符 的组合形成了表达式。python中的运算符分为以下七大类:算数运算符、比较(关系)运算符、赋值运...原创 2020-04-09 21:41:12 · 1448 阅读 · 0 评论 -
初识 python - 序列类型
目录序列类型1、序列对象2、列表类型1)、创建列表对象的两种方法2)、访问列表3)、列表更新4)、列表的操作符5)、嵌套列表6)、列表中的函数与方法7)、List[] 与 list[:] 的区别(★)3、元组类型4、字典类型1)、访问字典2)、同 列表 、元组的比较5、集合6、数据类型转换序列类型1、序列对象“序列” 是...原创 2020-04-09 09:36:06 · 1946 阅读 · 0 评论 -
初识 Python - 简要认识、语法规范及数据类型
目录pip模块管理器(在线安装模块)Python 开发工具Python 是一种面向对象的解释型计算机程序设计语言。具有以下特点:1)、简单易学:适合没有任何编程语言基础的人稍微看一下资料,就可以写出功能强大的程序。2)、开发效率高:很难像Java那样开发出完整的大型综合性网站或平台,但其起到画龙点睛的作用。同时也是一门典型的“胶水语言”,整合其他各种编程语言。3)、典型的...原创 2020-04-08 09:59:21 · 931 阅读 · 0 评论