
python数据科学库
文章平均质量分 71
Lucky20171225
这个作者很懒,什么都没留下…
展开
-
用户数据分析
第一部分:数据类型的处理(预处理) 数据加载 字段定义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存在缺失值 将order_dt转换成时间类型 查看数据的统计描述 计算所有用户购买商品的平均数量 计算所有用户购买商品的平均花费 在源数据中添加一列表示月份:astype('datetime64[M]')原创 2022-02-26 23:44:18 · 1054 阅读 · 0 评论 -
科学数据库(Pandas)——第六节 Pandas时间序列
时间序列 为什么要学习pandas中的时间序列 不管在什么行业,时间序列都是一种非常重要的数据形式,很多统计数据以及数据的规律也都和时间序列有着非常重要的联系,而在pandas中处理时间序列是非常简单的 生成一段时间范围pd.date_range(start=None, end=None, periods=None, freq=‘D’) start 开始时间 end 结束时间 freq 频率 periods 周期 (能够生成从start开始(或者end结尾),频率为fr...原创 2021-04-22 23:50:04 · 226 阅读 · 1 评论 -
pandas 中如何将数据输出到本地
pandas to_csv()方法的使用 import pandas as pd file_path = "./911.csv" df = pd.read_csv(file_path)#导入需要处理的文本 tp=df["title"].str.split(":")。 #从df中选取需要的数据tp.to_csv('911副本.csv') #保存在当前目录下tp.to_csv('C:\Users\86181\Desktop.csv') #绝对路径下的保存 ...原创 2021-04-20 17:04:37 · 632 阅读 · 0 评论 -
科学数据库(Pandas)——第五节 数据的分组和聚合
pandas中对数据进行分组的操作:groupby 例如:grouped=df.groupby(by="columns_name") #df中的数据按照"columns_name"这列进行分组 grouped是一个DataFrameGroupBy对象,是可迭代的 grouped中的每一个元素是一个元组,元组里面包含的是(索引(分组的值),分组之后的DataFrame 注意:只对数据集进行分组操作,将不会显示结果,只会生成一个分组的对象,只有分组后进行聚合运算才有实际结果 ...原创 2021-02-09 23:43:31 · 396 阅读 · 0 评论 -
数据科学库(HM)——第一节数据分析介绍&matplotlib
数据分析 定义: 数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。 为什么要学数据分析? python数据科学的基础(包含pandas、numpy、matplotlib等python库) 机器学习课程的基础 数据分析的流程 提出问题 准备数据 整理、分析数据 获得结论 成果可视化 matplotlib matplotlib是最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建 为什么学习matplot原创 2020-12-12 00:50:22 · 203 阅读 · 0 评论 -
科学数据库(Pandas)——第四节 数据合并之join和merge
数据合并之join join:默认情况下他是把行索引相同的数据合并到一起 数据合并之merge merge:按照指定的列把数据按照一定的方式合并到一起原创 2021-01-30 23:09:15 · 423 阅读 · 0 评论 -
科学数据库(Pandas)——第三节 字符串离散化案例
问题: 对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据? 思路: 重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1 #coding=utf-8 import pandas as pd import numpy as np from matplotlib import pyplot as plt file_path="MDB-Movie-Data.csv" df=pd.read_csv(file_path) #统计分类的列表原创 2021-01-28 22:58:39 · 153 阅读 · 0 评论 -
科学数据库(Pandas)——第二节 pandas之DataFrame
目录 DataFrame的创建 DataFrame基本操作 pandas之loc pandas之iloc pandas之布尔索引 缺失数据的处理 pandas常用统计方法 DataFrame的创建 方法一:向DataFrame传入数组 可以指定索引的名称: 方法二:通过字典传入DataFrame DataFrame基本操作 #coding=utf-8 import pandas as pd df = pd.read_csv("dogNames2.csv".原创 2021-01-23 21:13:54 · 135 阅读 · 0 评论 -
科学数据库(Pandas)——第一节:pandas之Series类型
目录 Series的本质 Series的创建 Series的切片和索引 pandas中的缺失值 Series具有的where方法 Series的本质 Series 是一维的数组型对象,本质上由两个数组构成,一个数组构成对象的键(index,索引),一个数组构成对象的值(values),键->值 Series的创建 先导入pandas模块 import pandas as pd 方法一:向Series里传入列表(index不写,默认从0开始),index可以设置指定值,但是i.原创 2021-01-20 18:59:31 · 176 阅读 · 0 评论 -
数据科学库(HM)_第3节_Numpy
什么是numpy? 一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算原创 2021-01-19 17:21:24 · 163 阅读 · 0 评论 -
数据科学库(HM)_第2节_matplotlib绘图
matplotlib matplotlib能够绘制折线图,散点图,柱状图,直方图,箱线图,饼图等。我们需要知道不同的统计图到底能够表示出什么,以此来决定选择哪种统计图来更直观的呈现我们的数据。 对比常用统计图 折线图:以折线的上升或下降来表示统计数量的增减变化的统计图 特点:能够显示数据的变化趋势,反映事物的变化情况。(变化) 直方图:由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据范围,纵轴表示分布情况。 特点:绘制连续性的数据,展示一组或者多组数据的分布状况(统计原创 2020-12-17 15:51:31 · 226 阅读 · 0 评论