
数据分析
文章平均质量分 78
利用python,利用数学,统计学理论与实践相结合的科学统计分析方法,对Excel数据,数据库中的数据,网页抓取的数据进行分析,从中提取有价值的信息,并形成结论进行展示得到过程。
金灰
小小萌新,持续学习中,大家一起加油(ง •̀_•́)ง
展开
-
二十一.订单分析&RFM模型
本次数据条数为: 51101。原创 2024-04-17 21:11:13 · 382 阅读 · 0 评论 -
二十.案例演示--用户画像分析&高潜用户
本章主要对数据进行处理,分析,得出高潜用户.(用户需要,比如淘宝第一买个键盘,浏览了一大些,没有确定下来,第二天没有浏览.但是第三天又浏览了键盘,--->说明其有购买键盘的需求,等等案例.称之为高潜用户.)像点大数据推送(万物互联+手机号,个人信息)高潜用户分析:* 必须有购买行为(下单)* 最后的购买时间与最早的交互时间电商平台的漏斗原理:(不唯一)本次演示案例的条数为: 13199934 (由于数据太多,代码中我们会用到一种方法,防止内存撑暴)原创 2024-04-14 21:27:50 · 871 阅读 · 0 评论 -
十九.案例演示---天猫订单分析
本次案例演示数据条数为:28010。原创 2024-04-13 20:10:02 · 585 阅读 · 0 评论 -
十八.pyecharts高级视图
这个听说公司里的boss常用,其实没用...原创 2024-04-10 13:53:15 · 414 阅读 · 4 评论 -
十七.案例演示--招聘信息分析
读取文件:查看对象大体结构,数据:data.info()1.每个岗位在行业当中的占比双图示例(柱+折线):原创 2024-04-09 13:31:20 · 347 阅读 · 0 评论 -
十六.PyEcharts常用视图(2)
简单写一下,快速出图...原创 2024-04-05 14:59:26 · 387 阅读 · 0 评论 -
十五.PyEcharts常用视图(1)
-嵌套js代码,修改颜色.##js代码看if条件."""Bar()# .add_yaxis("淘宝",Faker.values(),itemstyle_opts=opts.ItemStyleOpts(color="blue")).add_yaxis("淘宝",Faker.values(),itemstyle_opts=opts.ItemStyleOpts(color=JsCode(color_function)))原创 2024-04-02 10:06:03 · 1151 阅读 · 0 评论 -
十四.PyEcharts基础学习
Echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts诞生了。Echarts是用JS来写的,而我们使用pyecharts则可以使用Python来调用里面的API。原创 2024-04-01 20:40:23 · 1306 阅读 · 0 评论 -
十三.youyiku分析案例(数分)
types = df_data.groupby("product").revenue.mean().sort_values(ascending=False) #.sort_values(ascending=False)进行排序.(默认是True,升序)plt.bar(types.index,types.values,color=["red","orange","green","yellow"]) #指定柱状图(bar)的颜色.(随机.)原创 2024-03-31 22:14:54 · 1020 阅读 · 0 评论 -
十二.matplotlib视图
plt.xticks(ticks=np.arange(0,11,2),labels=['鸡哥','凡哥','坤哥','吴哥','东阿','建个'], fontsize=20,color="blue",ha="left")plt.bar(x,df_data["语文"],width=width,label="语文",color="red")y = ["湖南","湖北","陕西","甘肃","浙江","江西","广东","四川"]index = ["张三","李四","王五","赵六","坤哥","凡哥"],原创 2024-03-24 11:59:42 · 1000 阅读 · 0 评论 -
十一.matplotlib可视化
Matplotlib 是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D 图像,它使用简单、代码清晰易懂,深受广大技术爱好者喜爱。分析(Analysis):数据分析的目的是获取有用的信息,这个过程主要涉及对数据的清洗、检查、转换以及对数据的建模;美工层是结构中的第二层,它提供了绘制图形的元素时的给各种功能,例如,绘制标题、轴标签、坐标刻度等。图表为更好地探索、分析数据提供了一种直观的方法,它对最终分析结果的展示具有重要的作用。原创 2024-03-22 16:42:17 · 1096 阅读 · 0 评论 -
十.pandas方法总结&Numpy
slice(2, 9, 3)#从索引2开始到索引9停止,步长为2通过冒号来分割切片参数.从[1:]索引处开始切割返回数组的第二行[0,1,2]代表行索引;[0,1,0]代表列索引# 行索引 width_data = np.array([[0, 0], [3, 3]]) # 列索引 height_data = np.array([[0, 2], [0, 2]]) new_data = arr_data[width_data, height_data]原创 2024-03-21 16:57:50 · 1326 阅读 · 0 评论 -
九.pandas绘图基础
box() 常用于统计分数.ddd = pd.DataFrame(np.random.randint(65,90,size=(5,4)),columns=['语文','数学','英语','历史'])。原创 2024-03-20 20:55:55 · 1187 阅读 · 0 评论 -
八.数据清洗
自定义空值类型.--->NaN。原创 2024-03-20 08:49:35 · 957 阅读 · 0 评论 -
七.pandas处理第三方数据
在 CSV 文件中指定了一个列,然后使用index_col可以实现自定义索引。print(df)原创 2024-03-17 12:00:52 · 979 阅读 · 0 评论 -
六.pandas聚合分组
在划分出来的组(group)上应用一些统计函数,从而达到数据分析的目的,比如对分组数据进行聚合、转换,或者过滤。使用数据库时,我们利用查询操作对各列或各行中的数据进行分组,可以针对其中的每一组数据进行各种不同的操作。df_data.loc[df_data.index[[0,2,4]],["语文","数学","英语"]]columns=["语文","数学","英语","政治","历史","地理"]index=["张三","李四","王五","赵六","坤哥","凡哥"],原创 2024-03-15 14:05:57 · 1493 阅读 · 0 评论 -
五.pandas常见操作
any表示只要该行(列)出现空值就删除整行(列),all表示整行(列)都出现空值才会删除整行(列)axis:默认为0,表示删除行还是列,也可以用“index”和“columns”表示。df["身高"].fillna(df["身高"].mean())"姓名":["张三","李四","王五","赵六"],"性别":["男",np.nan,"男","男"],"身高":[180,175,178,np.nan],subset:列表类型,表示哪些列里有空值才删除行或列。#mean()求均值---对每一列求均值。原创 2024-03-13 15:56:01 · 949 阅读 · 0 评论 -
四.pandas数据处理
print(df.rename(columns={'Name': '姓名', 'Age': '年龄', "height": "身高"}, index={0: 'first', 1: 'second', 2: 'third'}))dict_data = {'Name': pd.Series(['张三', '李四', '王五', '赵六', '老赵', '小曹', '小陈','老李', '老王', '小冯', '小何', '老张']),----------从大到小(ascending=False)原创 2024-03-11 18:10:13 · 1077 阅读 · 0 评论 -
爬虫与DataFrame对象小小结合
--如有侵权,请即使联系。原创 2024-03-10 11:49:33 · 472 阅读 · 1 评论 -
三.pandas基础
arr_str = np.array(['张三', '李四', '王五', '赵六'])# 自定义索引标签(即显示索引)原创 2024-03-10 09:51:58 · 2595 阅读 · 4 评论 -
二.numpy基础
NumPy 内置函数 slice() 可以用来构造切片对象,该函数需要传递三个参数值分别是 start(起始索引)、stop(终止索引) 和 step(步长) ,通过它可以实现从原数组的上切割出一个新数组。在 NumPy 中,如果想要访问,或修改数组中的元素,您可以采用索引或切片的方式,比如使用从 0 开始的索引依次访问数组中的元素,这与 Python 的 list 列表是相同的。获取了 4*3 数组中的四个角上元素,它们对应的行索引是 [0,0] 和 [3,3],列索引是 [0,2] 和 [0,2]。原创 2024-03-06 17:25:20 · 1319 阅读 · 0 评论 -
一.数据分析简介
1、数据分析师利用数学,统计学理论与实践相结合的科学统计分析方法,对Excel数据,数据库中的数据,网页抓取的数据进行分析,从中提取有价值的信息,并形成结论进行展示得到过程。2、数据分析实际就是通过总结数据的规律来解决业务问题,以帮助在实际工作中的管理者做出判断和决策3、数据分析包括以下几个主要内容:现状分析:分析已经发生了什么原因分析:分析为什么会发生这种状况预测分析:预测未来可能发生什么。原创 2024-03-04 18:27:25 · 874 阅读 · 0 评论