
数据分析
文章平均质量分 52
凌晨两点半还不回家
归云一去无踪迹,何处是前期。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python读写CSV/EXCEL/HTML/SQL/TXT
csv文件是一种以逗号为分隔符的纯文本形式存储的表格数据。通常csv文件的第一行是列名。既然是表格类的数据,那么最先想到的应是pandas库的读取方法。pandas以dataframe或series为格式,其实就是表格形式的数据。所以下面介绍用pandas来读取的方法。当然pandas还可以读取许多其他格式的文件,之后会系统介绍。pandas读取csv要使用pandas首先要i...转载 2018-09-07 19:18:59 · 397 阅读 · 0 评论 -
Pandas绘图
说起绘图,之前的笔记中讲过Matplotlib。这是相对“低级”的绘图工具,需要自己完成基础组件的组装,如图例,标题,标签。本文要介绍的是Pandas绘图函数,它会更高效,更简单,只需要根据数据的索引,标签进行绘图。这里主要介绍3类图像的绘制:线形图,柱状图,散布矩阵。了解与学习更多pandas绘图的知识,可以参看链接: http://pandas.pydata.org/pandas-...原创 2018-09-07 19:58:52 · 628 阅读 · 0 评论 -
数据预处理
拉格朗日与牛顿插值法进行插补代码:%参数初始化inputfile='../data/catering_sale.xls'; %销售数据文件index=1; %销售数据所在下标outputfile='../tmp/sales.xls'; %插值后数据存放%%读入数据[num,txt,raw]=xlsread(inputfile);data=num(...原创 2018-09-11 13:04:20 · 751 阅读 · 0 评论 -
seaborn绘图
Python中的一个制图工具库,可以制作出吸引人的、信息量大的统计图在Matplotlib上构建,支持numpy和pandas的数据结构可视化,甚至是scipy和statsmodels的统计模型可视化seaborn的特点:多个内置主题及颜色主题 可视化单一变量、二维变量用于比较数据集中各变量的分布情况 可视化线性回归模型中的独立变量及不独立变量 可视化矩阵数据,通过聚类算法探究矩...转载 2018-09-08 09:33:02 · 620 阅读 · 0 评论 -
餐饮销售额数据损失值及异常检测代码
%% 餐饮销量数据缺失值及异常值检测clear;% 初始化参数catering_sale = '../data/catering_sale.xls'; % 餐饮数据index = 1; % 销量数据所在列 %% 读入数据[num,txt] = xlsread(catering_sale);sales =num(2:end,index);rows = size(sales,1);...原创 2018-09-10 17:04:16 · 2057 阅读 · 1 评论 -
matlab统计作图函数
1.plot功能:绘制线性二维图,折线图。使用格式:plot(X,Y,S),绘制Y对于X,字符串参量S指定绘制时的图像的颜色样式和类型。当X,Y均为实数同维向量时,则描出点(X(i),Y(i)),然后用直线依次相连;当X,Y均为复数向量时,不考虑虚数部分;当X或者Y是一个矩阵时,则该矩阵的行或者列的向量将被绘制。x=0:2*pi/20:2*pi;y=sin(x);plot(x,y...原创 2018-09-11 11:07:38 · 695 阅读 · 0 评论 -
Pandas数据结构
本文主要介绍pandas中的两种数据结构:series,dataframe。import numpy as npimport pandas as pd"""Series的构建""""""通过list构建"""ser_obj = pd.Series(range(10, 20))print(ser_obj)"""通过dict构建"原创 2018-09-07 15:40:42 · 236 阅读 · 0 评论 -
挖掘建模之分类与预测
原创 2018-09-13 12:30:24 · 282 阅读 · 0 评论