
python数据分析
文章平均质量分 86
小白只对大佬的文章感兴趣
小白一个
展开
-
python数据分析(七)—pandas数据可视化
frame.plot(kind=‘barh’,stacked=True)#柱状图barh是水平方向制作。frame.plot(kind=‘bar’,stacked=True)#stacked设置重叠区域。stacked是否堆积,在折线图和柱状图中默认为False,在区域图中默认为True。x和y表示标签或者位置,用来指定显示的索引,默认为None。subplots是否对列分别作子图,默认False。kind表示绘图的类型,默认为line,折线图。Kernel概率密度线。......原创 2022-07-22 22:04:36 · 1974 阅读 · 0 评论 -
python数据分析(六)—数据清洗2
如果要对全DataFrame或者是Series数据集中的数据进行某种替换,map()可能需要对数据集中的每个列都进行map()操作才可以,但是replace方法可以一次性替换掉DataFrame或者是Series中所有的数据。drop_duplicates返回的是DataFrame,输出的是去除了重复行的新对象,默认保留按照顺序下来第一个遇到的序列。对象.rename(index={‘原索引’‘重命名索引’},columns={‘原索引’‘重命名索引’})...原创 2022-07-21 21:39:35 · 862 阅读 · 0 评论 -
python数据分析(五)—数据清洗1
在数据分析中,缺失数据是经常发生的事,pandas的目标之一就是尽量简单处理缺失数据。1.缺失数据的虑除。原创 2022-07-20 23:41:11 · 524 阅读 · 0 评论 -
python数据分析(四)
SQLAlchemy项目是一个流行的PythonSQL工具,它抽象出了SQL数据库中的许多常见差异。数据库的选择通常取决于性能、数据完整性以及应用程序的伸缩性需求。虽然可以用PyTables或h5py库直接访问HDF5文件,pandas提供了更为高级的接口,可以简化存储Series和DataFrame对象。实现数据的高效二进制格式存储最简单的办法之一是使用Python内置的pickle序列化。将数据从SQL加载到DataFrame的过程很简单,此外pandas还有一些能够简化该过程的函数。...原创 2022-07-20 11:12:28 · 723 阅读 · 0 评论 -
python数据分析(三)
data.to_csv(sys.stdout,index=False,columns=[‘a’,‘b’,‘c’],na_rep=‘NULL’)#输出部分列并且可以按照自己规定的顺序。pd.read_csv(‘examples/ex2.csv’,names=[‘a’,‘b’,‘c’,‘d’,‘names’])#自己定义列名names=[‘’]pd.read_table(‘examples/ex1.csv’,sep=‘,’)#用read_table并指定分隔符(sep)......原创 2022-07-18 23:09:53 · 809 阅读 · 0 评论 -
python—数据分析(二)
在对象进行算术运算时出现索引不重叠返回的都是NAN值,若不想要以NaN值输出而引入fill_value参数(frame.方法(frame1,fill_value=xx))如果索引对应多个值则输出一个Series(DataFrame),索引单个值则输出一个标量。3.arange()是Numpy中的函数,range()则是python自带函数,它们主要区别是arange支持。5.Index.get_indexer方法是给你一个索引数组,从可能包含重复值的数组到另一个不同值的数组。......原创 2022-07-17 18:21:42 · 597 阅读 · 0 评论 -
python—数据分析(一)
DataFrame是一个表格型的数据结构,含有一组有序的列,每列的值类型可以不同(数值、char、bool等)。不仅有行索引还有列索引,可以看作由Series组成地字典。数据是由一个或多个二维块存放的,不是列表、字典或别的一维数据结构。index和columns行索引和列索引(格式为[‘x1’,‘x2’])copy是从input输入中拷贝数据(默认是false,不拷贝)。date表示传入的数据。dtype为列的类型。......原创 2022-07-15 22:21:54 · 586 阅读 · 0 评论