
数据分析
童话里做英雄529
这个作者很懒,什么都没留下…
展开
-
Pandas 较长数字数据导出csv文件后变成科学计数法(带E)的解决办法
一、问题引出在工作中中碰到某一列数据为纯数字,并且长度在18位左右,导出数据到csv文件后出现变成科学技术法的情况,并且最后几位还会被四舍五入。如图:真实的数据为:导出csv文件后的数据为:可以看到数据发生了变化。二、解决办法通过把每条数据转变成字符串类型后加上‘\t’字符就可以了。def deal_str(data): data = str(data)+'\t' return datadf['平台单号'] = df['平台单号'].map(deal_str)df.t原创 2020-07-28 13:11:04 · 17819 阅读 · 3 评论 -
window10安装spark
1.下载并安装JDK点击下一步选择安装地址,选择完直接下一步点击完成点击下一步出现下面的界面安装完成后跳出下面的界面,点击关闭2.配置环境变量右键计算机属性→高级系统设置→高级里的环境变量→系统变量里的Path→点击编辑→点击新建→浏览→找到下载的java文件,找到2个bin文件,点击确定配置完成后的效果如下图打开cmd窗口,输入java -version...原创 2019-08-12 21:11:23 · 2908 阅读 · 0 评论 -
pandas数据链接merge
1.先看一下参数2.当两个DataFrame有同名列的时候,使用on连接创建两个有同名列的DataFrameon默认是使用DataFrame同名的列进行关联,如果指定了就按照指定的列进行连接3.没有同名的列,用left_on,right_on连接先创建两个没有同名列的DataFrame4.指定连接的方式,指定how默认是内连接常用的还有:left左连接right右连接...原创 2019-08-06 15:47:59 · 294 阅读 · 0 评论 -
RFM模型以及案例
一.RFM模型定义 百度百科定义: **RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况.* *简单来说就是通过最近一次消费(recency),消费频率(frequency),消费金额(monetary)来判断这个用户...原创 2019-08-08 15:31:39 · 9721 阅读 · 2 评论 -
pandas中的两种排序方式
1.sort_values案例:df = pd.DataFrame(np.random.randint(1,100,(5,5)),columns=list('abcde'))dfdf.sort_values('a',ascending=True)排序后结果如下:第一个参数是按照哪个列排序第二个参数ascending决定排序方式,True升序,False降序如上案例是按照a列...原创 2019-08-01 16:14:45 · 4210 阅读 · 0 评论 -
pandas使用读取csv文件出现‘Initializing from file failed’错误
如图,在读取下面这个csv文件的时候出现了错误。错误:通过查阅资料,这是因为路径中使用了中文出现的问题。解决方案如下:原创 2019-08-05 09:53:10 · 706 阅读 · 0 评论 -
numpy数组的集合函数
下面使用的是一下数组:1.unique(去重,并且按照从小到大排序)2.intersect1d(交集)3.union1d(并集)4. setdiff1d(差集)注意:a2,a3的位置不同,结果也会不同上面的表示a2有但是a3没有的数5.setxor1d(对称差集)图解6.in1d(包含)判断a2中的元素是否是a3中的元素...原创 2019-07-31 15:15:59 · 1112 阅读 · 0 评论 -
numpy数组操作
下面使用的数组为:一.追加(append)1.一维数组追加2.多维数组追加3.多维数组追加(指定axis)总结:在不指定轴的情况下:1.不对原来的数组进行操作2.在数组末尾追加,不管是一个数组还是一个数据都是返回一个一维数组在指定轴的情况下:生成一个多维数组二.插入(insert)1.一维数组插入2.多维数组插入insert()参数介绍:第一个参数为操作的...原创 2019-07-31 15:11:09 · 535 阅读 · 0 评论 -
pandas中的to_datetime()方法
注:写的比较简单,仅用于记录1.作用将给定的数据按照指定格式转换成日期格式2.常用参数arg:输入errors:错误数据处理format:日期格式3.用法案例1:给定一个时间和一个格式,给定的时间就会按照给定的格式将它转换成日期的格式案例2(尝试换一种格式):可以看到,如果不指定时分秒,默认均为0,其他年月日按照格式,变成日期格式案例3:指定时分秒案例4:erro...原创 2019-08-03 11:00:08 · 66162 阅读 · 0 评论 -
numpy布尔数组索引
1.先创建一个数组如下h=np.arange(6).reshape(3,2)2.选择出大于等于3的数据,会得到一个布尔类型的数组,如果大于等于3 ,在bool_idx数组中就会展示True,否则为Flase。如图:bool_idx=(h>=3)3.打印出h数组中大于等于3的数据print(h[bool_idx])4.也可以直接把条件和数组结合:print(h(h&g...原创 2019-05-22 19:28:06 · 2280 阅读 · 0 评论 -
numpy数组切片
1.一维数组切片切片:左闭右开,形式 d[x,y,z]x 起始位置,包括进去y 终止位置,不包括进去z 步长,如果等于2,就空开一个取一个数据负号代表从后往前取。案例:print(d[1:3])print(d[1:-2])print(d[-4:3])print(d[::2])结果:2.多维数组切片print('表示取第一行第3到第四个数',e[0,3:5])...原创 2019-05-22 19:18:59 · 6068 阅读 · 0 评论 -
numpy创建数组
1.创建一维数组直接创建:结果:使用arange创建:结果:2.创建二维数组直接创建结果:使用arange方法创建结果:3.创建随机矩阵注意:random创建的是0到1之间的随机数...原创 2019-05-22 15:26:52 · 435 阅读 · 0 评论 -
pandas中的map()和apply()
1.map()在pandas中只有Series对象能用这个方法,DataFrame不能使用。作用是将自定义函数应用于每一个元素案例如下:df1 = pd.DataFrame({ 'a':[1,2,3,4], 'b':['one','two','three','four'], 'c':'w'})df1首先尝试将a列的数字都加上1df1['a'] = df1[...原创 2019-08-02 15:34:09 · 313 阅读 · 0 评论