数据分析
健康平安的活着
再给我一次重生的机会,我将加倍珍惜,将java事业进行到底。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas各种方式读取dataframe的数据,有这篇就够了
import numpy as npfrom pandas import DataFrameimport pandas as pd#构建dataframe,二维数组df = DataFrame(np.arange(20).reshape(4,5),index=['one','two','three','four'],columns=list('abcde'))print(df) ...原创 2020-02-22 14:09:23 · 9293 阅读 · 0 评论 -
DataFrame获取列数据,并赋值存储
R F M 聚类后类别Id 1 27 6 232.61 02 3 5 1507.11 13 4 16 817.62 24 3 11 232.81 25 14 7 1913.05 16 19 6 ...原创 2020-02-17 19:32:33 · 2023 阅读 · 0 评论 -
数据分析 各种第三方lib库的介绍
原创 2020-01-12 17:26:11 · 869 阅读 · 0 评论 -
查看某个时间段内某个关键词的日志内容的命令
sed -n '/2020-01-10 02:10:00/,/2020-01-10 02:11:01/p' oms_timer.log|grep 'DailyBeforeLast30DaysOrderUserTask'原创 2020-01-10 13:35:38 · 1077 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame的set_index 详解
DataFrame可以通过set_index方法,可以设置单索引和复合索引。set_index( ) 将 DataFrame 中的列转化为行索引。默认的,当列变成行索引之后,原来的列就没了,但是可以通过设置drop来保留原来的列。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrit...原创 2020-01-07 17:38:53 · 5914 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame案例分析4:使用PeriodIndex将离散组成pandas的时间序列,然后统计不同时间段,两个地方的pm值走势
数据集:代码:# -*- coding: utf-8 -*-# @File : pandas_dataframe_periodIndex_demo.py# @Date : 2020-01-07 15:59# @Author : adminimport pandas as pdfrom matplotlib import pyplot as pltimpo...原创 2020-01-07 17:35:28 · 549 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame案例分析3:统计不同月份不同类型的条数
# -*- coding: utf-8 -*-# @File : pandas_dataframe_class_datatime_total_demo.py# @Date : 2020-01-07 14:27# @Author : admin'''不同月份不同类型的统计次数'''import pandas as pdfrom matplotlib import ...原创 2020-01-07 15:41:26 · 1223 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame案例分析2:统计不同月份的通话次数
# -*- coding: utf-8 -*-# @File : pandas_dataframe_datatime_group_demo.py# @Date : 2020-01-06 21:30# @Author : adminimport pandas as pdfrom matplotlib import pyplot as pltimport numpy a...原创 2020-01-07 11:36:10 · 510 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame案例分析1(方法二):获取title字段中包含物流运输业名称作为分类,统计各个分类的条数,
# -*- coding: utf-8 -*-# @File : pandas_dataframe_add_new_class_demo.py# @Date : 2020-01-06 17:49# @Author : adminimport pandas as pdfrom matplotlib import pyplot as pltimport numpy as...原创 2020-01-06 19:24:53 · 451 阅读 · 0 评论 -
数据分析-day06-pandas-dataFrame案例分析1(方法一):获取title字段中包含物流运输业名称作为分类,统计各个分类的条数
数据格式:目的数据:目的:获取title字段中包含物流运输业名称作为分类,统计各个分类的条数# -*- coding: utf-8 -*-# @File : pandas_dataframe_classs_sum_demo.py# @Date : 2020-01-06 16:38# @Author : admin'''获取title字段中包含物流运...原创 2020-01-06 17:38:48 · 539 阅读 · 0 评论 -
数据分析-day05-pandas-dataFrame的时间的重采样
重采样:指的是将时间序列从一个频率转化为另一个频率进行处理的过程,将高频率数据转化为低频率数据为降采样,低频率转化为高频率为升采样 pandas提供了一个resample的方法来帮助我们实现频率转化#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_resample_demo.p...原创 2020-01-05 18:00:44 · 809 阅读 · 0 评论 -
数据分析-day05-pandas-dataFrame的时间序列、字符串转换成时间序列
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_timeseries_demo.py@time: 2020-01-05 下午 5:27'''import stringimport pandas as pdimport numpy as np#默认按天a=pd.da...原创 2020-01-05 17:54:06 · 1498 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame的总结
原创 2020-01-05 17:01:32 · 222 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame的综合案例三:不同年份书的数量和不同年份书的平均评分情况
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_cases3.py@time: 2020-01-05 下午 4:101.不同年份书的数量2.不同年份书的平均评分情况'''import pandas as pdfrom matplotlib imp...原创 2020-01-05 16:38:09 · 689 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame的综合案例二:统计中国每个城市的店铺数量
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_cases2.py@time: 2020-01-05 下午 3:54统计中国每个城市的店铺数量'''import pandas as pdfrom matplotlib import pyplot as...原创 2020-01-05 15:59:50 · 1142 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame的综合案例一:店铺总数排名前10的国家
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_cases1.py@time: 2020-01-05 下午 3:25本案例是统计:店铺总数排名前10的国家'''import pandas as pdfrom matplotlib import ...原创 2020-01-05 15:45:50 · 979 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame、series的复合索引的操作
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_series_index_demo.py@time: 2020-01-05 下午 1:33'''import pandas as pd;import numpy as npa = pd.Dat...原创 2020-01-05 15:16:44 · 530 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame中索引和复合索引的操作
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_index_demo.py@time: 2020-01-05 上午 11:14'''import pandas as pd;import numpy as npdf=pd.DataFrame(np.ar...原创 2020-01-05 11:47:13 · 902 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame中group by分组与聚合
源数据:分组后:grouped = df.groupby(by="columns_name")grouped是一个DataFrameGroupBy对象,是可迭代的grouped中的每一个元素是一个元组 ,元组里面是(索引(分组的值),分组之后的DataFrame)#!usr/bin/env python#-*- coding:utf-8 _*-'''@autho...原创 2020-01-05 11:06:12 · 690 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame中查询数据与修改赋值修改语句(r=df[df["z"]==6] & df["z"]=6)
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: pandas_dataframe_compare_demo.py@time: 2020-01-05 上午 10:19'''import pandas as pd;import numpy as npdf=pd.DataFrame(np....原创 2020-01-05 10:29:05 · 697 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame的join-merge 合并数据
join:按行索引进行合并,行的索引名称必须一样,:默认情况下他是把行索引相同的数据合并到一起merge:按照指定的列把数据按照一定的方式合并到一起,默认的合并方式inner默认的合并方式inner,并集merge outer,交集,NaN补全merge left,左边为准,NaN补全merge right,右边为准,NaN补全#!usr/bin/env python#-*- ...原创 2020-01-04 18:27:14 · 266 阅读 · 0 评论 -
数据分析-day04-pandas-dataFrame字符串离散化,将一维字符串截取转换成矩阵,实现可视化展示
实现要求:将左边的图例转成右边矩阵的样子技术关键点:1.获取去重分类列表2.构建全0矩阵3.遍历赋值zero_array.loc[m, d_list[m]] = 1 #等同于 # zero_array.loc[m, ['Action', 'Adventure', 'Sci-Fi']] = 1#!usr/bin/env python#-*- coding:ut...原创 2020-01-04 16:58:51 · 641 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame的抽取某列数据,将float转换int型,实现直方图显示
#float转换成整型d_num=d_num.astype(int);# -*- coding: utf-8 -*-# @File : pandas_dataframe_zhifang_demo.py# @Date : 2020-01-04 12:37# @Author : adminimport pandas as pdimport numpy as np...原创 2020-01-04 13:31:52 · 4565 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame的统计函数
# -*- coding: utf-8 -*-# @File : pandas_dataframe_total_demo.py# @Date : 2020-01-04 11:52# @Author : admin'''统计函数'''import pandas as pdimport numpy as npfile_path = "../../data/I...原创 2020-01-04 12:36:50 · 367 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame获取dataframe某行某列的数据
#将第一行的2列设置为nand.iloc[1,1]=np.nan;d.iloc[3,3]=np.nan;#第二种方式#dataframe获取某行某列的数据print(df.loc[1,["Actors"]])原创 2020-01-04 12:31:44 · 11316 阅读 · 1 评论 -
数据分析-day03-pandas-dataFrame的确失值的处理
判断数据是否为NaN:pd.isnull(df),pd.notnull(df) 处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False) 处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)# -*- coding: utf-8 -*-# @File ...原创 2020-01-03 19:29:29 · 216 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame的bool 索引使用
print(df["Count_AnimalName"]>10) #打印出都是true,falseprint(df[df["Count_AnimalName"]>10]) #获取数据注意这两个不同写法,代表不同功能# @File : pandas_dataframe_boolindex_demo.py# @Date : 2020-01-02 20:17#...原创 2020-01-03 10:30:37 · 2846 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame的loc和iloc操作
df.loc 通过标签索引行数据df.iloc 通过位置获取行数据# -*- coding: utf-8 -*-# @File : pandas_dataframe_ioc_demo.py# @Date : 2020-01-02 18:07# @Author : adminimport stringimport pandas as pd;import nu...原创 2020-01-02 18:57:12 · 418 阅读 · 0 评论 -
数据分析-day03-pandas-dataFrame的操作
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值。DataFrame既有行索引也有列索引,它可以被看做是由Series组成的字典(共用同一个索引),数据是以二维结构存放的。类似多维数组/表格数据 (如,excel, R中的data.frame)每列数据可以是不同的类型索引包括列索引和行索引DataFrame对象既有行索引,又有列索引 行索引,表明...原创 2020-01-01 16:09:12 · 542 阅读 · 0 评论 -
数据分析-day03-pandas-series的操作
Series是一种类似一维数组的数据结构,由一组数据和与之相关的index组成,这个结构一看似乎与dict字典差不多,我们知道字典是一种无序的数据结构,而pandas中的Series的数据结构不一样,它相当于定长有序的字典,并且它的index和value之间是独立的,两者的索引还是有区别的,Series的index是可变的,而dict字典的key值是不可变的。简而言之:series对象本质上有...原创 2020-01-01 15:47:28 · 228 阅读 · 0 评论 -
数据分析-day03-pandas-概述
Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。一个强大的分析和操作大型结构化数据集所需的工具集基础是NumPy,提供了高性能矩阵的运算提供了大量能...原创 2020-01-01 15:16:53 · 261 阅读 · 0 评论 -
数据分析-day02-numpy-分析案例3:抽取数据文件中的数据进行拼接
获取最大值最小值的位置 np.argmax(t,axis=0) np.argmin(t,axis=1)创建一个全0的数组: np.zeros((3,4))创建一个全1的数组:np.ones((3,4))创建一个对角线为1的正方形数组(方阵):np.eye(3)# -*- coding: utf-8 -*-# @File : numpy_pingjie_demo....原创 2020-01-01 13:57:11 · 273 阅读 · 0 评论 -
数据分析-day02-numpy-分析案例2:抽取数据文件的部分列数据,使用直方图进行展示
抽取数据文件的部分列数据,使用直方图进行展示# -*- coding: utf-8 -*-# @File : numpy_matplot_show_demo1.py# @Date : 2020-01-01 10:22# @Author : adminfrom matplotlib import pyplot as pltimport numpy as nppri...原创 2020-01-01 13:53:54 · 300 阅读 · 0 评论 -
数据分析-day02-分析案例1:将矩阵中为nan的元素替换为每一列的均值
背景要求:将矩阵中为nan的元素替换为每一列的均值:def method2(): for i in range(t.shape[1]): temp_col=t[:,i]; nan_num=np.count_nonzero(temp_col!=temp_col); #为nana的个数 print(nan_num) if nan_num >...原创 2020-01-01 13:46:28 · 498 阅读 · 0 评论 -
数据分析-day02-numpy-求和、均值,标准差等各种函数
求和:t.sum(axis=None)均值:t.mean(a,axis=None) 受离群点的影响较大中值:np.median(t,axis=None)最大值:t.max(axis=None)最小值:t.min(axis=None)极值:np.ptp(t,axis=None) 即最大值和最小值只差标准差:t.std(axis=None)获取最大值最小值的位置 np.ar...原创 2020-01-01 13:38:30 · 624 阅读 · 0 评论 -
数据分析-day02-numpy-Nan和inf
1.nan(NAN,Nan):not a number表示不是一个数字,当我们读取本地的文件为float的时候,如果有缺失,就会出现nan2.当做了一个不合适的计算的时候(比如无穷大(inf)减去无穷大)3.两个nan是不相等的4.nan与任何值计算都为nan5.判断数字是否为nan,用np.isnan(x)6.判断含有nan的个数用np.count_nonzero(e!=e)7....原创 2020-01-01 13:35:12 · 306 阅读 · 0 评论 -
数据分析-day02-numpy-各种random 随机函数
# -*- coding: utf-8 -*-# @File : numpy_random_rand_demo.py# @Date : 2019-12-13 19:43# @Author : admin#https://blog.youkuaiyun.com/u012149181/article/details/78913167import numpy as np#案例一 ...原创 2020-01-01 13:29:19 · 325 阅读 · 0 评论 -
数据分析-day02-numpy-读取csv文件,以及通过切片的方式获取不同维度数据
数据:代码:# -*- coding: utf-8 -*-# @File : numpy_readfile_demo.py# @Date : 2019-12-30 17:12# @Author : adminimport numpy as np'''1.delimiter 指定分隔符,不然每一行的数据合并成了一行数据,而会报错2.dtype 默认情...原创 2019-12-30 18:27:25 · 734 阅读 · 0 评论 -
数据分析-day02-numpy-np数组的基本操作
Numpy:提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。高性能科学计算和数据分析的基础包ndarray,多维数组(矩阵),具有矢量运算能力,快速、节省空间矩阵运算,无需循环,可完成...原创 2019-12-30 14:47:49 · 271 阅读 · 0 评论 -
数据分析-day01-matplotlib-总结篇
应该选择那种图形来呈现数据matplotlib.plot(x,y) 折线图matplotlib.bar(x,y) 柱状图matplotlib.scatter(x,y) 散点图matplotlib.hist(data,bins,normed) 直方图xticks和yticks的设置label和titile,grid的设置绘图的大小和保存图片...原创 2019-12-30 12:15:40 · 302 阅读 · 0 评论
分享