数据分析
文章平均质量分 71
ⓟ Paradise
感兴趣的领域有数据分析、机器学习、大数据、应用统计、经济金融,等。欢迎交流。
更多内容请访问我的 Github 主页:
<https://paradiseeee.github.io/>
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SQL 复习 03
函数与关键字用法说明round(x, n)四舍五入,x为浮点数,n为保留的位数ceil(x)向上取整floor(x)向下取整truncate(x, n)截断x,n为保留的位,该位之后的数值置零,位数表示示例:321.123,其中小数点前用负值表示,小数点位数为0,即 truncate(x, 0) 等同于舍弃小数部分取整mod(a, b)返回 a 除以 b 的余数abs(x)返回 x 的绝对值rand()返回 0-1 的随机浮点数s原创 2023-08-12 12:47:41 · 857 阅读 · 0 评论 -
检验样本正态性
在统计学中很多推论与正态分布有关,并且很多统计量构造为满足正态分布的形式,很多分布在特定条件近似于正态分布。因此,在统计推断中经常需要判断样本的正态性。本文介绍一些常用的方法。原创 2023-07-11 21:38:28 · 519 阅读 · 0 评论 -
医药销售数据分析
如图,左右分别为 0-12 和 12-24 小时中的下单数量分布,可以直观地看到有较高的集中趋势。根据此行为习惯,可以在对应时段提高商品 pv,增加客服销售人员支持,促进用户下单和提高转化率,以提高销售业绩。如图为总样本不同渠道和不同 SKU 的销售额,趋势过于集中,容易因为某个渠道或某个产品的问题引起销售额较大的波动。因此可以进一步研究其特点,结合地区销售情况,用户行为习惯等分析,推出营销活动,作为提高销售业绩的突破口。如图,为不同员工的销售额和订单量,大体上处于一致的水平。原创 2023-06-30 10:59:58 · 2200 阅读 · 0 评论 -
使用 fitter 拟合数据分布
前面的文章中通过假设对比来检验样本是否服从泊松分布。得出的结论是总体分布不服从泊松分布,那么如何找到与总体分布最接近的分布呢?不可能一个个分布去验证。这里便可以用到fitter这个库。fitter是一个小型的第三方库,提供了一个简单的类来拟合数据的分布,亦即找出与样本最接近的理想的分布。原创 2023-06-30 09:44:14 · 1482 阅读 · 0 评论 -
检验样本是否服从泊松分布
本文以一个为例,研究顾客购买次数的分布规律,尝试从中估计总体的分布,以对后续的订单数据进行预测或进行业绩的对比。原创 2023-06-30 09:42:25 · 1267 阅读 · 0 评论 -
SQL 复习 02
【代码】SQL 复习 02。原创 2023-03-15 11:59:47 · 112 阅读 · 1 评论 -
PyEcharts 学习总结
Echarts是一个基于 JavaScript 的图表库,用于在 HTML 中生成可交互的图表(关于更多 js 图表库可以参考 优快云 上的这篇博客PyEcharts旨在提供在 Python 中使用 Echarts 的 API,以便将数据可视化的流程整合到 Python 数据处理的流程当中。以下是四个文档和示例网站,各有特点。利用好这几个网站基本上就可以解决所有可能遇到的问题,而不需要在搜索引擎中漫无目的地翻查。原创 2023-06-30 09:37:25 · 1617 阅读 · 0 评论 -
解决 pyecharts 地图不显示的问题
在 pyecharts 中如果修改了 online host,会导致绘制的地图显示不全,需要将 host 改回默认的。原创 2023-06-29 17:38:38 · 1602 阅读 · 0 评论 -
提高 pyecharts 生成的网页的加载速度
使用 Pyecharts 生成的可视化作品是 HTML 的形式,需要使用特定的 js 代码。如果生成完全离线可用的文件,文件里会包含大量的 js 代码,文件会过大不利于分享。如果生成没有 js 代码的文件,则默认在 pycharts.org 上加载相应的 js,访问速度比较慢。因此可以参考以下操作更改 HOST,使用 CDN 加速。原创 2023-06-29 17:37:08 · 623 阅读 · 0 评论 -
餐饮市场分析(下)
关于展示的内容和开发过程的介绍直接看。项目,项目网站已经同时部署在。原创 2023-06-29 17:29:02 · 192 阅读 · 0 评论 -
餐饮市场分析(上)
注意到箱形图部分城市的四分位已经到零点,主要是部分商家首页没有推荐的折扣商品,导致计算产品的参考均值的时候得到缺失值。在 MtSpider 中的 parse_data 环节已经进行简单的清洗,主要根据返回的 json 文档的数据结构,将其分割成两个表,方便处理。明显的趋势是:价格亲民的品牌,有遍地开花的趋势,反之价格高的品牌店铺数量较少。首先看一下各区的分布(绘制这个图的时候都没发现,现在才惊觉有个逻辑上的错误,影响不大,懒得改了)。不过也是可以反映一些信息的,毕竟哪怕是刷的分,也是要成本的。原创 2023-06-29 17:26:30 · 393 阅读 · 0 评论 -
超市零售数据可视化分析(Plotly 指南)
优快云 上不能插入 HTML,可以在 GitHub Page 上查看:项目首次发布于上 –。感兴趣的可以直接上去 Fork 之后自己做。由于上面只能用 Jupyter Notebook,而且还没有权限 DIY 工作环境,于是线下重新做一下。,包含全球范围内的大型超市四年间的零售订单数据,有 24 个字段,5w+ 条订单记录。下面将详细了解数据内容,进行数据清洗以及可视化分析。原创 2023-06-29 17:20:29 · 2604 阅读 · 1 评论 -
Bokeh 绘图基础与常用功能
在 Github 上查看交互式的绘图结果 |在这篇文章中,从最基本的绘图开始,逐步学习 Bokeh 中常用的绘图功能,目标是能满足大部分基础的绘图需求。原创 2023-06-29 17:19:48 · 412 阅读 · 0 评论 -
Modin 入门学习
是一个 Python 第三方库,用于加速 Pandas 的 API 执行速度。原始的 Pandas 是单线程执行的,而 Modin 则重新打包了 Pandas 里面的 API,使其同时在多个内核中运行,提高硬件性能的利用率。使用方法很简单,安装 Modin 后,将导入 pandas 的语句由改为即可。这时候使用的便是由 Modin 包装后的 API。但是它并没有覆盖全部的 API,遇到库中不包含的 API,它会自动切换为原始的 Pandas 执行。也就是说,使用上与原始的 Pandas 是完全一致的。原创 2023-06-29 17:11:54 · 1288 阅读 · 0 评论 -
介绍几款在线编程工具(Python)
这个是数据科学社区用的比较多的平台,相对来说也比较成熟,功能比较完善,现阶段有比较慷慨的免费计算资源。(1) 创建一个(或已存在的)Github 仓库,里面包含你要共享或在线编辑的 notebook(2) 在浏览器打开以下网址:对应上图仓库的链接就是(3) 等待片刻就在服务器搭建好一个虚拟环境,并加载出 Jupyter 的页面(4) 第一次加载会慢一点,后面的操作就很流畅了。然后就像在本地服务使用 Jupyter Notebook 一样该干啥干啥就可以了。原创 2023-06-29 17:06:47 · 1815 阅读 · 0 评论 -
SQL 复习 01
简单复习了一下 SQL,记录一下速查表例子示例表:/* Employee */+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 | 2 || 3 | Sam |.原创 2022-01-15 12:11:25 · 510 阅读 · 0 评论 -
深圳数据分析职位 招聘数据研究
一、数据获取以下为数据获取的完整代码,直接使用 get 请求数据,网站只需验证正确的 User-Agent。同时在 JobSpider 中初步解析整理数据,使用 BeautifulSoup + CSS 解析数据,使用正则表达式整理数据完善字段。具体的解析逻辑参考网页源码。# -*- coding: utf-8 -*-"""爬取 51Job-深圳-数据分析 招聘职位数据"""impor...原创 2020-05-08 01:47:34 · 683 阅读 · 0 评论 -
2019-nCoV 疫情传播模拟
武汉必胜!中国必胜!2020 新年之际,新型冠状病毒疫情在全国各地陆续出现,尤其武汉人民深受其害。为了支援疫区,同时打发被“软禁”在家的时光,决定研究一下目前的疫情,看看是否能发现一些有用的结论。在网上浏览一下,对于疫情数据的可视化以及建模分析,目前已经做了大量的工作,并且已经建立实时监控疫情的系统。于是准备从另一个方面入手,从本质上模拟疫情的传播,并对比理想状态下的传播于实际情况的区别。...原创 2020-03-08 17:57:29 · 1456 阅读 · 4 评论 -
链家二手房价分析
深圳二手房价分析—— 纵得广厦千万间,难使天下寒士俱欢颜。一、问题背景最近,深圳的一个新楼盘深业中城开盘,备案价高达 13.1 万的豪宅项目,光认筹就需要缴纳 500 万的诚意金,在别的城市已经可以全款购买一套房了。单看新盘的价格,深圳早几年就已经超越北京稳居榜首了。但是最近中国房价行情网的最新数据显示,10 月份深圳二手房均价为 65,364 元/㎡,环比增长 1.07%,意味着深圳的二手...原创 2019-12-05 01:07:51 · 1683 阅读 · 2 评论
分享