
数据分析
文章平均质量分 86
麦当当MDD
大数据攻城狮,立志为同志们尽可能多的提供干货!
展开
-
MYSQL入门
给SQL入门选手提供一些便利原创 2025-03-25 15:30:38 · 1111 阅读 · 0 评论 -
数据分析中如何理解透视表
透视表(Pivot Table)是数据分析中一种非常强大的工具,用于快速汇总、分析、探索和展示数据。透视表可以根据数据的不同维度和指标进行重组和计算,帮助用户从大量数据中提取有用的信息和发现数据中的模式和趋势。原创 2024-06-20 20:35:46 · 2044 阅读 · 0 评论 -
在数据分析中,对缺失值解决方案的分析
参数值为int类型,按行去除NaN值,去除NaN值后该行剩余数值的数量(列数)大于等于n,便保留这一行。接收一个列表,列表中的元素为列名: 对特定的列进行缺失值删除处理。1, or 'columns':删除包含缺失值的列。0, or 'index':删除包含缺失值的行。all: 如果所有值都是NA,则删除该行或列。inplce=True,对原数据集进行修改。any: 如果存在NA值,则删除该行或列。可选参数,不建议使用这个参数。可选参数 ,默认为0按行删。subset接收一个列表。可选参数,默认为any。原创 2024-06-19 21:28:45 · 887 阅读 · 0 评论 -
数据分析(四)
join = 'inner' 默认 ‘outer’ outer 会保留连接的两张表的所有的信息, 有列名、行名不匹配的时候, 用NaN填充, 如果是inner 只会连接 行名、列名相同的部分。需要注意的是, index columns values 都可以传列表, aggfunc 可以针对不同的value 选择不同的聚合方式, 此时需要传入字典 但是不推荐把表做的过于复杂。作用和散点图类似, 当数据量比较大的时候, 绘制散点图, 好多点会重复绘制到相同的位置, 普通的散点图不能读出这个信息来。原创 2024-06-11 15:12:39 · 1199 阅读 · 0 评论 -
数据分析(三)
分组字段,可以有1个多个, 默认分组的字段在分组的结果中会作为行索引, 如果设置了as_index = False ,分组字段会作为结果的列数据, 会使用从0开始的整数索引。df.grouppy([分组字段], as_index= ).agg({‘聚合字段名’:'聚合方法名','聚合字段名’:'聚合方法名'})pd.cut(df['价格'],bins = [0,3000,8500,210000],labels=['便宜','中等','贵'])原创 2024-06-10 19:00:34 · 1186 阅读 · 0 评论 -
数据分析(二)
df_head3.drop_duplicates(subset=['户型','朝向'],keep='last',ignore_index=True)df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'df.rename(index = {'老值':'新值'},columns={'老值':'新值'})df_head3['区域'].apply(func,args=['昌平区','其它区'])原创 2024-06-07 09:08:32 · 1118 阅读 · 0 评论 -
数据分析(一)
values 值, ndarray(注意 pandas2.0以后, 底层调用的运算库,可以不是numpy了, 可以选择pyarrow)修改数据的API默认不会再原始的数据上进行修改, 而是会在副本上进行修改, 并且会把这个修改后的副本作为方法的返回值, 返回来。如果两行行索引不一样,不能在一起算, 如果一个Series里有的行索引, 另一个Series没有, 返回NaN。可以传入字典 {‘列名’:[值1,值2, 值3],‘列名2’:[值1,值2, 值3]}原创 2024-06-06 21:49:52 · 886 阅读 · 0 评论 -
大数据—数据分析概论
数据分析是指使用统计、数学、计算机科学和其他技术手段对数据进行清洗、转换、建模和解释的过程,以提取有用的信息、发现规律、支持决策和解决问题。数据分析可以应用于各种领域,包括商业、医学、工程、社会科学等。确定问题:明确要解决的问题或要回答的业务问题。设定目标:定义分析的具体目标和期望的结果,如提高销售额、降低成本、优化运营等。原创 2024-06-04 11:33:31 · 1830 阅读 · 4 评论