
python数据操作
文章平均质量分 62
python在处理数据中的应用,作为工具在描述性探索分析中的应用
小白自留地
小白初来乍到,有不正确的地方,还请各位朋友批评指正!如果需要,注明出处哦。
展开
-
python函数to_dict使用
to_dict函数是将数据框数据转换为字典形式。DataFrame.to_dict(*self*,orient='dict',into=)都是转换为字典,但具体形式不同:orient='dict',默认,字典套字典:{column:{index:value}}orient ='list' ,字典里面为列表:{column:[values]}orient ='series',字典里为series形式:{column: Series(values)}orient ='split',字典里是数据对应原创 2021-06-30 10:32:10 · 16724 阅读 · 3 评论 -
python时序数据处理2--提取年月信息、时间作差等
同样首先先生成时序数据1.生成时序数据import pandas as pdimport numpy as npfrom datetime import datetime,timedeltatest=pd.date_range('2020-05-09', periods=50,freq='H') #生成时间序列,期数是12,时间间隔按照分钟test[1:10]#构造时间序列数据ts=pd.Series(np.arange(50),index=tes原创 2021-06-19 12:46:25 · 2330 阅读 · 0 评论 -
python时序数据操作1--字符串转日期
1. 生成日期数据import pandas as pdpd.date_range( )同生成随机数的思想类似,使用pandas库中的函数pd.date_range(start=None,end=None,periods=None,freq=None,tz=None,normalize=False,name=None,close=None,**kwargs)参数解释:1 设定开始时间、长度、频率start_date='20200101'length=10date_1=pd.dat原创 2021-05-22 20:44:07 · 1129 阅读 · 0 评论 -
notebook使用
1. 在notebook中执行命令行命令命令行的命令前面加个! 即可在notebook中进行。!pip3 install pandas2. pip镜像pip默认使用国外站点来下载python包,可能存在网速、网络稳定问题。可以配置国内镜像来加速下载(国外用戶无须此操作)。阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣 http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu原创 2021-05-15 21:04:14 · 1743 阅读 · 0 评论 -
python语法句法(简)
一些复杂问题可以用编程解决,一个重要基础是逻辑,循环等,(对于仰望计算机专业数学专业大神的小白来说,编程好难…逻辑好难…哭泣)1. 条件语句1.1 if 语句简单的 if 语句:if 条件: 执行当“条件”为真时,开始执行内容例子:a=18if a>=10: print('a:',a) print('True')输出:a: 18True1.2 if-else 语句if 条件: 执行内容1else : 执行内容2当“条件”为真时,执行内原创 2021-05-16 09:56:24 · 572 阅读 · 0 评论 -
描述分析时的数据可视化探索(简)
对一份数据进行分析或探索时,针对连续型数据或离散型数据,有对应的探索方式分析数据特征,以更好地服务于之后的建模或深入分析。这里结合python中作图包的使用(主要是matplotlib和seaborn),小小总结一下对连续型数据和离散型数据的分析思路(思维导图),希望之后能够结合实践不断完善和丰富,不断进步。(不正确的地方还请朋友们指正!)...原创 2021-05-03 16:41:07 · 193 阅读 · 0 评论 -
pyecharts做柱形图(简)
使用pyecharts做柱形图举例数据from pyecharts.charts import Barfrom pyecharts import options as opts#数据attr=["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]v1=[5,20,36,10,10,100]v2=[55,60,16,20,15,80]柱形图第一种方式:链式调用#链式调用bar=( Bar() .add_xaxis(attr) .add_原创 2021-05-03 16:29:15 · 1410 阅读 · 0 评论 -
使用seaborn作直方图/柱形图/散点图
使用seaborn作图并不多,记录也不详尽,之后如果用的多再进行补充。seaborn其实是在matplotlib的基础上进行了更高级的API封装,使得作图更加容易。在matplotlib上构建,支持numpy和pandas的数据结构可视化多个内置主题及颜色主题可视化单一变量、二维变量用于比较数据集中各变量的分布情况可视化线性回归模型中的独立变量及不独立变量加载包:import numpy as npimport pandas as pdimport matplotlib.pyplot原创 2021-05-03 16:23:15 · 2412 阅读 · 2 评论 -
常用统计作图-使用matplotlib
使用matploylib作图并不多,记录也不详尽,之后如果用的多再进行补充。多个子图首先加载包import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif']='SimHei'plt.rcParams['axes.unicode_minus']=False子图设置需要的函数:figure- Matplotlib的图像均位于figure对象中- 创建figure: fig=plt.figu原创 2021-05-03 16:06:32 · 1241 阅读 · 2 评论 -
使用bokeh包作散点图和柱形图
python中的bokeh包也是作图神器,现在了解到了如何作散点图和柱形图,先记录一波。Bokeh专门针对Web浏览器的呈现功能的交互式可视化python库。Bokeh接口Charts:高层接口,以简单的方式绘制复杂的统计图Plotting:中层接口,用于组装图形元素Models:底层接口,为开发者提供最大灵活性首先bokeh图举例如下:个人认为绘图的基本框架可以为:设置hover提示框的内容设置画布figure绘图(添加散点图/柱形图等)绘图空间设置加载需要的包im原创 2021-05-03 11:36:10 · 2393 阅读 · 3 评论 -
使用pyecharts包作简单的中国地图
只摸索出全部省份的地图,直接设置参数即可,做出来的图挺好看,所以记录一下。选择部分省份作图或对某一个具体地区作图,特别是用于论文、研究等,需要图片十分清晰,还是专业地图绘制软件更合适。创建备用数据import pandas as pdgeo_test_data=[('北京',100),('上海',90), ('江苏',88),('陕西',78), ('河北',10),('湖南',66)]df=pd.DataFrame(geo_test_d原创 2021-05-02 22:54:49 · 2157 阅读 · 2 评论 -
pandas常用操作(小小结..)
pandas是基于numpy数组构建的,但最大不同是pandas是专门为处理表格和混杂数据设计的。数据结构有一维Series和二维DataFrame。直接将excel或csv数据导入python进行操作分析时,常用到数据框各种操作,使用pandas操作基本能满足大部分需求。...原创 2020-12-04 17:20:05 · 165 阅读 · 0 评论 -
numpy常用操作(小小结..)
numpy是以矩阵为基础的数学计算模块, 数据结构是n维的数组对象ndarray。数组可以用python常规方式定义,但引入Numpy工具包后,使用array函数构建,更容易处理和操作。'''python常规方式定义数组 '''a_1=[1,2,3,4,5] print(type(a_1)) #数据类型是列表lista_1+1 #无法对数据计算'''引入Numpy工具包,使用array函数创建'''a_2=np.array([1,2,3,4,5])print(typ原创 2020-12-04 17:17:22 · 170 阅读 · 0 评论 -
python小知识点 - 一个特殊小场景计数
(仅供参考,供复习学习使用)背景是有一个表格table,统计非零值列数。abcdCount0140210363011123table['Count']=0for i in range(0,table.shape[0]): for j in range(0,table.shape[1]-1): if table[i,j]==0: table.loc[i,'Count'] += 1...原创 2020-08-11 23:41:50 · 145 阅读 · 0 评论 -
python小知识点 - 一句话循环
参考博客:python基础-列表推导式笔记仅做总结复习使用~python使用循环时(虽然还没使用过大的循环或嵌套循环),利用for循环写,逻辑更清晰些,但有时候循环后得到的结果要拼接到列表中,使用for循环会涉及到缩进,如果嵌套循环,缩进会更复杂些,对于循环在哪里结束就会比较迷(对我来说…),突然就体会到一句话循环(列表式推导)的便利了,总结一下下。单层、双层简单循环比如:‘Can you speak English?’要将这句话中每个单词中的大写转换为小写,使用for循环时:test=['原创 2020-08-11 23:27:20 · 3981 阅读 · 0 评论 -
python数据类型中series与array的区别
在python处理数据时,数据标准化函数StandardScaler进行标准化数据框的某一列数据时,直接选择数据框的某列进行标准化报错:from sklearn.preprocessing import StandardScalerStandardScaler().fit_transform(data['Amount'])报错提醒显示,函数需要的是二维数组,但是命令输入的是一维数组,如果你的数据是一个特征(n*1),那么使用reshape(-1,1)重塑结构,如果数据是一个样本(1*n),那么使用原创 2020-07-05 16:20:16 · 6632 阅读 · 0 评论 -
python数据预处理小结
预处理理论与基本的python操作文件链接:https://www.processon.com/view/link/5ef76e375653bb2925b85253原创 2020-06-28 22:13:27 · 1751 阅读 · 0 评论