
python基础
UP Lee
这个作者很懒,什么都没留下…
展开
-
tushare pro的token凭证码设置
1、首先需要注册新用户可以点击邀请链接注册:https://tushare.pro/register?reg=3481322、从头像上点击用户名,打开个人主页;3、,点击接口token,点击右边纸张图标,复制;4、在python中进行如下操作即可:token=‘你复制下来的token’ts.set_token(token)pro=ts.pro_api()df =...原创 2020-02-06 20:56:10 · 2731 阅读 · 1 评论 -
5、python导入csv、excel、text文件方法及参数详解(中文路径)
目录# 1 导入CSV文件 # 2 导入文本文件# 3 导入excel文件# 4 中文路径# 1 导入CSV文件 语法: read_csv(file,encoding)文件示例: CSV格式选择用(,)号分割案例:# 读取文件,路径必须是英文路径from pandas import read_csvdf=read_csv( 'D:\\D...原创 2018-11-28 19:43:50 · 6656 阅读 · 0 评论 -
6、python解决导出excel等文件参数设置及中文乱码解决
目录1 解决中文乱码的问题 2 导出文本文件3 导出excel,需要安装openpyxl包1 解决中文乱码的问题 SData.to_csv('D:\\DATA\\pycase\\number2\\project\\SData.csv', index=False, encoding='utf_8_sig')2 导出文...原创 2018-11-28 19:47:53 · 5737 阅读 · 0 评论 -
7、python数据框重复值的查找和删除
1 找出重复的位置index=df.duplicated()## 根据某些列找出重复的位置index=df.duplicated('id')index=df.duplicated(['id','key'])## 根据返回值,把重复的数据提取出来df[index]2 直接删除重复值# 默认根据所有的列进行删除,直接调用,一步到位newDF=df.drop_du...原创 2018-11-28 19:50:19 · 7640 阅读 · 0 评论 -
8、python数据框数据缺失值的指定、查找、补齐、删除等操作
缺失值处理:目录01 指定要查找的NA值02 找出空值的位置03 获取空值所在的行04 指定某列的na值05 替换掉NA值06 直接删除NA空值01 指定要查找的NA值,ahebdf=read_csv( 'D:\\DATA\\pycase\\4.4缺失值处理\\data2.csv', engine='python', ...原创 2018-11-28 19:55:42 · 9941 阅读 · 1 评论 -
30、python散点图绘制简单操作
散点图;是以一个变量为横坐标,另一个变量为纵坐标,利用三点(坐标点)的分布形态反映变量关系的一种图形1 散点图绘图函数plot(x,y,'.',color=(r,g,b))参数说明:x,y : x,y轴的序列‘.’ '。' :绘图是小点还是大点、color : 散点图的颜色,用rgb定义,或者用英文字符定义,rgb为0到1的范围2 案例import pandas...原创 2018-12-05 11:08:43 · 1798 阅读 · 0 评论 -
21、python根据时间提取数据
时间抽取:时间抽取,是根据一定的条件,对时间格式的数据进行抽取1 根据索引进行抽取 DataFrame.ix[start:end] DataFrame.ix[dates] 2 根据时间列进行抽取 DataFrame[condition] import pandas 案例:# lambda 获取所有的数据,对时间字段进行格式设...原创 2018-12-03 14:49:11 · 8712 阅读 · 0 评论 -
22、python数据处理虚拟变量的转化
虚拟变量(dummy variables):虚拟变量,也叫哑变量和离散特征编码。可用来表示分类变量、费数量因素可能产生的影响01 离散特征的取值之间有大小意义例如:尺寸(L、XL、XXL)02 离散特征的取值之间没有大小的意义例如:颜色1 离散特征的取值之间有大小的意义的处理函数 pamdas.Series.map(dict) 离散特征的取值之间有大小意义...原创 2018-12-03 15:08:19 · 4350 阅读 · 0 评论 -
35、python序列和变量时间格式的转换
1 时间表现主要分为字符窜格式和时间格式。str和datetime2 运算的匹配又有时间具体的一些年、月、日、时、分、秒。属性:%Y 代表年份%m 代表月份%d 代表日期%h 代表小时%M 代表分钟%S 代表秒3 序列格式和变量格式的修改01 序列时间格式的修改import pandas# 将字符型时间格式转化为时间格式data['时间']=pandas...原创 2018-12-12 17:28:53 · 1310 阅读 · 0 评论 -
31、python绘制折线图方法、案例
折线图: 也称为曲线图,它是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势1 折线图绘图函数:plot(x,y,style,color,linewidth)title('图的标题')参数说明:style,划线的样式‘。’‘-’color 画线的颜色linewidth 线的宽度2 案例:import pandasimport matplotli...原创 2018-12-05 19:01:20 · 3488 阅读 · 0 评论 -
23、python对数据进行求和、方差、平均值等基本统计指标计算
基本统计分析:描述性统计分析,用来概括失误整体状况以及事物间联系,以便发现其内在的规律的统计分析方法常用的统计指标:计数求和平均值方差标准差1 函数描述性统计函数: describe()常用的统计函数:统计函数 注释size 计数sum 求和mean 平均值Var 方差std 标准差...原创 2018-12-03 16:15:36 · 14014 阅读 · 0 评论 -
24、python对数据框进行分组统计简单操作
分组分析:是指根据分组字段,将分析对象划分成不同的部分,已进行对比分析各组之间的差异性的一种分析方法常见的统计指标:计数求和平均值1 函数01 分组统计函数:groupby(by=[分组列1,分组列2,...])[统计列1,统计列2,。。。].agg({统计列名1:统计函数1,统计列名2:统计函数2,。。。})参数说明:by: 用于分组的列中括号:用于统计的列ag...原创 2018-12-03 16:29:17 · 4936 阅读 · 0 评论 -
25、python数据分布分析、百分比占比(%表示)
分布分析: 是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行各组分布规律的一种分析方法。案例:import pandasdata=pandas.read_csv( 'D:\\DATA\\pycase\\5.3\\data.csv' )# 查看年龄的分布情况import numpyaggResult=...原创 2018-12-03 16:35:37 · 31941 阅读 · 0 评论 -
26、python数据表透视分析、交叉分析、实现透视表功能
交叉分析:通常用于分析两个或两个以上,分组变量之间的变量关系,以及交叉表形式进行变量间关系的对比分析定量、定量分组交叉定量、定性分析交叉定性、定性分组交叉1 交叉统计函数pivot_table(values,index,columns,aggfunc,fill_value)参数说明: values:透视表中的值 index:数据透视表中的行 co...原创 2018-12-03 17:14:38 · 2956 阅读 · 0 评论 -
32、python绘制柱形图、单个、多个、堆积、双向柱形图
目录一、绘图函数二、案例第一、单个柱形图第二个、多个柱形图第三、堆积柱形图第四、双向柱形图 柱形图:一种长方形的单位长度,根据数据大小回绘制的统计图,用来比较两个或以上的数据(时间或类别)一、绘图函数bar(left,right,width,color,bottom)barh(bottom,width,height,color)参数说明:left:...原创 2018-12-06 12:25:58 · 17947 阅读 · 2 评论 -
33、python绘制直方图
直方图:Histogram 使用一系列等宽不等高的长方形来绘制,宽度表示数据范围的间隔,高度表示在给定时间间隔内数据出现得频数,变化的高度形态表示数据的分布情况1 直方图绘制函数hist(x,color,bins,cumulative=False);参数说明:x,需要绘制的向量color,直方图的的填充颜色bins,设置直方图的分组个数cumulative...原创 2018-12-06 14:48:58 · 1156 阅读 · 0 评论 -
按列或索引有选择合并数据框(DataFrame)
目录例子公式官方解释例子>>> A >>> B lkey value rkey value mont0 foo 1 0 foo 5 w1 bar 2 1 bar 6 q2 ...原创 2018-11-26 22:57:08 · 8166 阅读 · 0 评论 -
4、python遍历数据框每一个元素进行运算、数据变换
1 数据变换例如:渠道之间的数据量级差距太大,进行简单的函数转换,这俩根据散点图,采用log对数函数01 遍历数据框进行数据操作import mathI=range(Data.index.size)J=range(Data.columns.size)i=0j=0for函数需要这是数组的形式()for i in I: for j in J: # 逐个...原创 2018-11-28 19:35:47 · 5135 阅读 · 0 评论 -
3、python数据框基本操作、切片、合并、排序
目录一、基本操作:二、通过切片获取数据三、数据排序四、数据行、列的合并一、基本操作:DataFrame行数:len(data) DataFrame列数:len(data.ix[1]) 查看行数和列数:data.shape二、通过切片获取数据1、loc通过行号和列名截取数据框:df.loc[0, '消费'] df.loc[2:3, ['a', 'b']]...原创 2018-11-28 19:29:26 · 4294 阅读 · 0 评论 -
10、python字符窜截取、转化字符窜(电话信息拆分)
转化字符窜并进行字符窜抽取,处理字符型数据函数:slice(start,stop)start 开始位置stop 结束为止电话号码:133 0019 8000获取运营商 地区 号码案例:01 字段抽取只能抽取字符窜格式,所以先进行转化df['tel']=df['tel'].astype(str)02 提取运营商,提取过程是左闭右开bands=df['...原创 2018-11-29 11:02:35 · 288 阅读 · 0 评论 -
27、python计算各组成部分的比重
结构分析:是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。axis参数说明:(默认按列运算)0 按列运算1 按行运算1 数据框的外部运算运算 注释add 加sub 减multiply 乘div 除2 数据框的内运算函数运算 注释sum 求和mean 均值Var 方差...原创 2018-12-04 16:43:05 · 5135 阅读 · 0 评论 -
28、python计算多序列间相关系数、相关程度
线性相关:主要采用皮尔逊相关系数来度量连续变量之间的线性相关强度;线性相关系数|r 相关程度0<=|r|<0.3 低度相关0.3<=|r|<0.8 中度相关0.8<=|r|<1 高度相关1 函数相关分析函数:DataFrame.corr()Series.corr(other) 说明:如果...原创 2018-12-04 16:56:03 · 9500 阅读 · 0 评论 -
29、RFM客户价值分析(有图有案例)
RFM分析:是根据用户活跃程度和交易金额贡献,进行客户价值细分的一种方法一、分析指标指标 解释 意义 R(Recency)近度 客户最近一次交易时间的间隔 R越小,表示客户越近有交易发生 F(Frequency)频度 客户最近一段时间内交易的次数 F越大,表示交易越频繁 M(Monetary)额度 客户最近一段时间内交易的金额 ...原创 2018-12-04 17:18:41 · 9930 阅读 · 1 评论 -
11、python字段分列、一列字符窜拆分成多列
字段拆分:按照固定的字符,拆分已有字符窜1 字段分割函数: split(sep,n,expand=false) sep 用于分割的字符窜 n 分割为多少列 expand 是否展开为数据框,默认为false 如果为true 则返回数据框 2 案例:对字符窜进行处理newDF=df['name'].str.split('',1,true)...原创 2018-11-30 14:43:21 · 17293 阅读 · 1 评论 -
12、python数据框中数据有条件的抽取、组合抽取
记录抽取:对数据进行抽取记录抽取数据公式:dataframe[condition]condition 过滤的条件返回值: dataframe条件类型:01 比较运算 <>=02 范围运算 between[left,right] df[df.comments.between(100,1000)]03 控制匹配 pandas.isnull(column)...原创 2018-11-30 14:50:52 · 4276 阅读 · 0 评论 -
13、python对数据进行随机抽样、按比例、分层抽样
随机抽样:按照一定的行数或者比例进行数据的抽取随机抽样行数公式:DataFrame.sample(n,frac,replace=False) n 按个数抽样 frac 按百分比抽样 replace 是否放回抽样,默认false为不放回import numpy# 设置随机种子seed( ) # 用于指定随机数生成时所用算法开始的整数值,# 如果使用相同...原创 2018-11-30 15:01:19 · 36176 阅读 · 1 评论 -
14、python多个数据框数据选择合并快速操作
函数:concat([dataFrame1,dataFrame2,...])任意多个数据框返回值: DataFrame注意:用中框号括起来例如:data=pandas.concat([data1,data2,data3])有选择的合并列data=pandas.concat([ data1[[0,1]], data2[[1,2]], data3...原创 2018-11-30 15:37:40 · 5440 阅读 · 0 评论 -
15、 python字段合并简单操作
01 将数值转换为字符窜类型 df=df.astype(str) 02 合并 tel=df['band']+df['area']+df['num'] df['tel']=tel原创 2018-11-30 15:40:52 · 642 阅读 · 1 评论 -
16、python字段匹配、左链接、右链接、外链接
类似于Vlookup字段匹配函数:merge(x,y,left_on,right_on)参数说明:x 第一个数据框y 第二个数据框left_on 第一个数据框用于匹配的列right_on 第二个数据框用于匹配的列返回值:DataFrame案例:import pandasitems=pandas.read_csv( 'D:\\DATA...原创 2018-11-30 15:54:56 · 5591 阅读 · 0 评论 -
17、python数据列之间的简单计算(加减乘除)
乘法例如:data['total']=data.price*data.num# 注意:用点的方式虽然可以访问,但是并没有组合进数据中data.total=data.price*data.num原创 2018-11-30 15:59:08 · 9296 阅读 · 0 评论 -
18、python数据标准化简单处理、归一化、正态化
数据标准化:是指将数据按比例缩放,使之落入到特定区间 1 进行0-1 表转化计算公式使用环境: 在聚类分析,主成分分析的时候,因为量纲不一所以需要# 导入归一化方法from sklearn.preprocessing import MinMaxScalermms = MinMaxScaler()# 调用方法对数据进行归一化处理data['X_train'] = mms....原创 2018-11-30 16:18:28 · 9749 阅读 · 0 评论 -
19、python数据分组简单操作
数据分组: 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究分组函数:cut函数、默认right为true cut(series,bins,right=true,labels=NULL)series 需要分组的数据bins 分组的划分数组right 分组的时候,右边是否不闭合,true为闭合labels 分组的自...原创 2018-11-30 16:30:44 · 1410 阅读 · 1 评论 -
20、python时间格式的提取、转换详解
时间转换:指将字符型的时间格式数据,转换成为时间型数据的过程1 时间转换函数:datetime=pandas.to_datetime(dateString,format);属性:%Y 代表年份%m 代表月份%d 代表日期%h 代表小时%M 代表分钟%S 代表秒时间属性抽取:抽取需要的部分属性语法:datetime.dt.property属性 ...原创 2018-11-30 16:37:22 · 3580 阅读 · 1 评论 -
1、快速了解python的常见数据类型
目录第一 logicl 逻辑型第二 number 数值型第三 字符型三种常用的额数据类型:类型 注释 logical 逻辑型 numeric 数值型 character 字符值 第一 logicl 逻辑型logical逻辑型:布尔型,只有两种取值(0和1、真和假)值 注释 true 真 fal...原创 2018-11-27 18:54:09 · 482 阅读 · 0 评论 -
2、python序列数据的访问、删除、修改简单操作
目录1 概念2 定义以及自定义3 访问4 限制5 修改追加数据6 切片获取数据7 删除数据pandas中两种常用的额数据结构类型 注释 series 序列 dataframe 数据框 1 概念series序列:序列是用于存储一行或者一列的数据,以及与之相关的索引index A0 张三1 ...原创 2018-11-27 19:25:40 · 1804 阅读 · 0 评论 -
9、python去除空格快速处理(左侧、右侧、全部)
字符窜:df数据框里边的name列为字符窜形式清除字符窜左侧是空值:newname=df['name'].str.lstrip()删除右侧:newname=df['name'].str.rstrip()删除全部:newname=df['name'].str.strip() ...原创 2018-11-29 10:55:22 · 12962 阅读 · 0 评论