python
文章平均质量分 76
ⓟ Paradise
感兴趣的领域有数据分析、机器学习、大数据、应用统计、经济金融,等。欢迎交流。
更多内容请访问我的 Github 主页:
<https://paradiseeee.github.io/>
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
安装使用 d3graph 时出现 TypeError 的解决方法
观察报错信息可以看到出错的代码(902 行)使用了类型指定语法,这是最新的 python 特性,与旧版本的 python 环境不兼容。可能是开发者或 pip 没有匹配到合适的版本,所以安装时没有问题,但是 import 时会报错。修改后即可正常使用。原创 2023-09-01 15:55:34 · 419 阅读 · 0 评论 -
检验样本正态性
在统计学中很多推论与正态分布有关,并且很多统计量构造为满足正态分布的形式,很多分布在特定条件近似于正态分布。因此,在统计推断中经常需要判断样本的正态性。本文介绍一些常用的方法。原创 2023-07-11 21:38:28 · 519 阅读 · 0 评论 -
医药销售数据分析
如图,左右分别为 0-12 和 12-24 小时中的下单数量分布,可以直观地看到有较高的集中趋势。根据此行为习惯,可以在对应时段提高商品 pv,增加客服销售人员支持,促进用户下单和提高转化率,以提高销售业绩。如图为总样本不同渠道和不同 SKU 的销售额,趋势过于集中,容易因为某个渠道或某个产品的问题引起销售额较大的波动。因此可以进一步研究其特点,结合地区销售情况,用户行为习惯等分析,推出营销活动,作为提高销售业绩的突破口。如图,为不同员工的销售额和订单量,大体上处于一致的水平。原创 2023-06-30 10:59:58 · 2200 阅读 · 0 评论 -
使用 fitter 拟合数据分布
前面的文章中通过假设对比来检验样本是否服从泊松分布。得出的结论是总体分布不服从泊松分布,那么如何找到与总体分布最接近的分布呢?不可能一个个分布去验证。这里便可以用到fitter这个库。fitter是一个小型的第三方库,提供了一个简单的类来拟合数据的分布,亦即找出与样本最接近的理想的分布。原创 2023-06-30 09:44:14 · 1482 阅读 · 0 评论 -
检验样本是否服从泊松分布
本文以一个为例,研究顾客购买次数的分布规律,尝试从中估计总体的分布,以对后续的订单数据进行预测或进行业绩的对比。原创 2023-06-30 09:42:25 · 1267 阅读 · 0 评论 -
PyEcharts 学习总结
Echarts是一个基于 JavaScript 的图表库,用于在 HTML 中生成可交互的图表(关于更多 js 图表库可以参考 优快云 上的这篇博客PyEcharts旨在提供在 Python 中使用 Echarts 的 API,以便将数据可视化的流程整合到 Python 数据处理的流程当中。以下是四个文档和示例网站,各有特点。利用好这几个网站基本上就可以解决所有可能遇到的问题,而不需要在搜索引擎中漫无目的地翻查。原创 2023-06-30 09:37:25 · 1617 阅读 · 0 评论 -
解决 pyecharts 地图不显示的问题
在 pyecharts 中如果修改了 online host,会导致绘制的地图显示不全,需要将 host 改回默认的。原创 2023-06-29 17:38:38 · 1602 阅读 · 0 评论 -
提高 pyecharts 生成的网页的加载速度
使用 Pyecharts 生成的可视化作品是 HTML 的形式,需要使用特定的 js 代码。如果生成完全离线可用的文件,文件里会包含大量的 js 代码,文件会过大不利于分享。如果生成没有 js 代码的文件,则默认在 pycharts.org 上加载相应的 js,访问速度比较慢。因此可以参考以下操作更改 HOST,使用 CDN 加速。原创 2023-06-29 17:37:08 · 623 阅读 · 0 评论 -
餐饮市场分析(上)
注意到箱形图部分城市的四分位已经到零点,主要是部分商家首页没有推荐的折扣商品,导致计算产品的参考均值的时候得到缺失值。在 MtSpider 中的 parse_data 环节已经进行简单的清洗,主要根据返回的 json 文档的数据结构,将其分割成两个表,方便处理。明显的趋势是:价格亲民的品牌,有遍地开花的趋势,反之价格高的品牌店铺数量较少。首先看一下各区的分布(绘制这个图的时候都没发现,现在才惊觉有个逻辑上的错误,影响不大,懒得改了)。不过也是可以反映一些信息的,毕竟哪怕是刷的分,也是要成本的。原创 2023-06-29 17:26:30 · 393 阅读 · 0 评论 -
超市零售数据可视化分析(Plotly 指南)
优快云 上不能插入 HTML,可以在 GitHub Page 上查看:项目首次发布于上 –。感兴趣的可以直接上去 Fork 之后自己做。由于上面只能用 Jupyter Notebook,而且还没有权限 DIY 工作环境,于是线下重新做一下。,包含全球范围内的大型超市四年间的零售订单数据,有 24 个字段,5w+ 条订单记录。下面将详细了解数据内容,进行数据清洗以及可视化分析。原创 2023-06-29 17:20:29 · 2604 阅读 · 1 评论 -
Bokeh 绘图基础与常用功能
在 Github 上查看交互式的绘图结果 |在这篇文章中,从最基本的绘图开始,逐步学习 Bokeh 中常用的绘图功能,目标是能满足大部分基础的绘图需求。原创 2023-06-29 17:19:48 · 412 阅读 · 0 评论 -
在前端开发中使用 Python
在使用 Python 进行数据分析的时候,经常需要创建一些动态、交互式的可视化作品。一般会用到如 Plotly、Pyecharts、Bokeh 等库,这些库都是基于前端技术创建可视化作品。所以在自定义可视化的时候,就会接触到很多前端开发的内容,但是很多 Pythoner 又不熟悉 JS 编程。这个时候就可以借助Brython这个库,直接在 JS 脚本里面写 Python 代码。听起来就很酷炫,下面通过简单的例子了解它的逻辑。原创 2023-06-29 17:12:58 · 1006 阅读 · 0 评论 -
Modin 入门学习
是一个 Python 第三方库,用于加速 Pandas 的 API 执行速度。原始的 Pandas 是单线程执行的,而 Modin 则重新打包了 Pandas 里面的 API,使其同时在多个内核中运行,提高硬件性能的利用率。使用方法很简单,安装 Modin 后,将导入 pandas 的语句由改为即可。这时候使用的便是由 Modin 包装后的 API。但是它并没有覆盖全部的 API,遇到库中不包含的 API,它会自动切换为原始的 Pandas 执行。也就是说,使用上与原始的 Pandas 是完全一致的。原创 2023-06-29 17:11:54 · 1288 阅读 · 0 评论 -
通过一个简单的例子理解 Python 中的多线程
命令,会退出 Python 终端,但是循环还是会继续运行,查看任务管理器会发现 Python 进程依然存在。函数已经在一个单独的线程里面跑起来了,这时候 Python 解释器还可以在新的线程里面处理新的操作,比如算一下 1+1 啥的。只要进程没结束,这个线程也会一直运行,直到完成。例如在机器学习中,我们可能需要对数据执行不同的特征工程,应用于不同的模型,来对比性能。就可以通过多个线程来并行地执行,加快处理速度。可以直接在命令行终端运行这一段代码,就会开始了一个线程,它属于 Python 这个进程。原创 2023-06-29 17:07:54 · 134 阅读 · 0 评论 -
介绍几款在线编程工具(Python)
这个是数据科学社区用的比较多的平台,相对来说也比较成熟,功能比较完善,现阶段有比较慷慨的免费计算资源。(1) 创建一个(或已存在的)Github 仓库,里面包含你要共享或在线编辑的 notebook(2) 在浏览器打开以下网址:对应上图仓库的链接就是(3) 等待片刻就在服务器搭建好一个虚拟环境,并加载出 Jupyter 的页面(4) 第一次加载会慢一点,后面的操作就很流畅了。然后就像在本地服务使用 Jupyter Notebook 一样该干啥干啥就可以了。原创 2023-06-29 17:06:47 · 1815 阅读 · 0 评论 -
2019-nCoV 疫情传播模拟
武汉必胜!中国必胜!2020 新年之际,新型冠状病毒疫情在全国各地陆续出现,尤其武汉人民深受其害。为了支援疫区,同时打发被“软禁”在家的时光,决定研究一下目前的疫情,看看是否能发现一些有用的结论。在网上浏览一下,对于疫情数据的可视化以及建模分析,目前已经做了大量的工作,并且已经建立实时监控疫情的系统。于是准备从另一个方面入手,从本质上模拟疫情的传播,并对比理想状态下的传播于实际情况的区别。...原创 2020-03-08 17:57:29 · 1456 阅读 · 4 评论
分享