数据分析
文章平均质量分 68
李昊哲小课
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python一次性解决任意常见日期字符串 ⇄ 统一格式
下面这段代码一次性解决「任意常见日期字符串 ⇄ 统一格式」的相互转换需求。特点:1. 能解析 30+ 种常见写法,也能把它们再转回任意你想要的格式;2. 输入宽容:空格、中文、斜杠、点号、无零补位都能识别;3. 输出灵活:想输出 datetime 对象、 YYYY-MM-DD 字符串、 MM/DD/YYYY 、 YYYY年M月D日 都行;4. 支持偏移:如 “2 天前”“3 小时后” 也能解析成日期或字符串。原创 2025-08-23 11:31:16 · 302 阅读 · 0 评论 -
销售数据可视化分析项目
使用 Python 进行销售数据的模拟生成、加载、分析和可视化,通过一系列实际需求案例,让学员掌握 Pandas、NumPy、Matplotlib 和 Seaborn 等库的基本使用方法。原创 2025-07-11 17:06:22 · 882 阅读 · 0 评论 -
pandas销售数据分析
消费者数据:customers.csv商品数据:products.csv交易数据:transactions.csv原创 2025-07-11 08:46:27 · 653 阅读 · 0 评论 -
python 操作 hive
pip install thrift pure-sasl thrift_sasl future pyhive原创 2025-07-01 10:40:11 · 360 阅读 · 0 评论 -
客户消费数据分析
这个程序实现了完整的数据处理流程,包括模拟数据生成、数据保存、数据清洗、数据分析和可视化。原创 2025-06-03 13:23:36 · 1111 阅读 · 0 评论 -
基于文本的情感分析
1. 数据加载与特征转换2. 数据集划分3. 模型训练4. 模型测试5. 输出信息量较大的特征6. 对输入的句子进行情感分析7. 使用SnowNLP进行情感分析8. 主函数原创 2025-04-15 08:39:44 · 3593 阅读 · 0 评论 -
Pandas 中透视表(`pivot_table`)和交叉表(`crosstab`)的区别
**核心区别**1. **透视表 (`pivot_table`)** - 用于对数据进行 **聚合计算**(如求和、均值、计数等)。 - 支持多维度分组(行、列、甚至多层索引)。 - 可以指定 `values`(要聚合的值)和 `aggfunc`(聚合函数)。2. **交叉表 (`crosstab`)** - 专门用于 **计算频率分布**(即列联表,统计不同组合的出现次数)。 - 默认行为是计数,但也可通过参数自定义聚合函数。 - 语法更简洁,适合快速生成原创 2025-04-13 17:22:41 · 3881 阅读 · 0 评论 -
pandas 关于 `merge` 和 `join` 的区别
1. **`merge`**: - 更通用的合并方法,支持基于**列**或**索引**的合并。 - 可以指定左右DataFrame的合并键(`left_on`, `right_on`)。 - 支持多种合并方式(内连接、外连接、左连接、右连接)。2. **`join`**: - 是 `merge` 的简化版,默认基于**索引**合并。 - 只能基于**左DataFrame的索引**和**右DataFrame的索引或指定列**合并。 - 语法更简洁,适合快速操作。原创 2025-04-13 17:18:49 · 3448 阅读 · 0 评论 -
python 多数据源整合
【代码】python 多数据源整合。原创 2025-04-13 09:35:51 · 3080 阅读 · 0 评论 -
pyecharts常用图形
pyecharts 是一个强大的 Python 可视化库,它支持绘制多种类型的图表,以下是一些常见的图表类型原创 2025-04-08 15:53:37 · 4225 阅读 · 0 评论 -
seaborn基本绘图
# 导入绘图库 matplotlib 的 pyplot 模块,用于绘制图形。from matplotlib import pyplot as plt# 导入 pandas 库,用于数据处理和分析。import pandas as pd# 导入 seaborn 库,用于绘图import seaborn as sns原创 2025-04-01 18:00:16 · 5152 阅读 · 0 评论 -
seaborn 完整案例
使用 seaborn 进行数据可视化的完整案例原创 2025-03-31 17:08:30 · 5202 阅读 · 0 评论 -
matplotlib完整案例
Matplotlib 是 Python 中一个流行的绘图库,用于创建各种静态、动态和交互式的图表。本文将通过一系列完整的案例来教授如何使用 Matplotlib 进行数据可视化。原创 2025-03-25 16:34:16 · 5835 阅读 · 0 评论 -
垃圾短信分类
1. 数据加载阶段特别指定手机号为字符串类型,避免解析错误2. 清洗过程中通过 lambda 表达式生成垃圾短信标签,规则可根据需要调整3. 脱敏处理采用部分隐藏的方式保护隐私,同时处理异常情况4. 分词过程包含 URL 替换和停用词过滤,提高文本表示质量5. 模型训练使用 TF-IDF + 多项式贝叶斯组合,适合短文本分类6. 可视化部分展示了数据分布和关键词云,帮助理解数据特征原创 2025-03-25 11:24:55 · 5589 阅读 · 0 评论 -
Matplotlib 中指定本地字体库
在 Matplotlib 中指定本地字体库可以通过以下几种方法实现原创 2025-03-24 14:44:44 · 6340 阅读 · 0 评论 -
关键词提取案例
在电商行业中,用户评论是了解用户需求和产品反馈的重要数据来源。通过分析用户评论,可以提取出用户关注的关键词,从而帮助商家优化产品和服务。本案例将展示如何结合`pandas`数据清洗、`jieba`分词和`scikit-learn`关键词提取技术,处理和分析用户评论数据。原创 2025-03-21 09:32:41 · 6020 阅读 · 0 评论 -
pandas基础
import pandas as pd# 设置DataFrame显示的宽度pd.set_option('display.width', 800) # 设置最大宽度为800个字符pd.set_option('display.max_columns', 100) # 最大列数为100原创 2025-03-11 16:19:41 · 6572 阅读 · 0 评论 -
python 正则表达式 re模块 练习
python 正则表达式 re模块 练习原创 2025-03-10 11:17:00 · 6768 阅读 · 0 评论 -
基于规则的分词
基于规则或词典的分词方法是一种较为机械的分词方法,其基本思想如下。将待分词语句中的字符串和词典逐个匹配。找到匹配的字符串则切分,不匹配则减去边缘的某些字符。从头再次匹配,直至匹配完毕或者没有找到词典的字符串而结束。基于规则分词主要方法如下。正向最大匹配法(Maximum Match Method,MM法)。逆向最大匹配法(Reverse Maximum Match Method,RMM法)。双向最大匹配法(Bi-direction Matching Method,BMM法)。原创 2025-03-04 09:40:16 · 7621 阅读 · 0 评论 -
Jupyter Notebook中使用GPU进行计算
在Jupyter Notebook中使用GPU进行计算原创 2025-02-25 11:02:03 · 9086 阅读 · 0 评论 -
deepin 安装 zookeeper
deepin 安装 zookeeper原创 2024-12-23 15:16:16 · 10495 阅读 · 0 评论 -
deepin 安装 hbase
deepin 安装 hbase原创 2024-12-20 09:20:37 · 10075 阅读 · 0 评论 -
scala 编写 hdfs 工具类
scala 编写 hdfs 工具类scala 创建 删除 hdfs 文件或目录scala 上传 下载 hdfs 文件 scala 读取 写入 hdfs 文件原创 2024-12-05 10:20:15 · 10406 阅读 · 0 评论 -
scala math 匹配模式
在Scala语言中,模式匹配是一种强大的控制结构,它允许你以声明式的方式检查一个值是否符合某个模式,并根据匹配的结果执行不同的代码块。Scala的模式匹配类似于正则表达式,但更加通用,可以用于数据结构的匹配。原创 2024-12-02 10:23:46 · 10483 阅读 · 0 评论 -
springboot整合presto
springboot整合presto原创 2024-11-22 16:08:19 · 10030 阅读 · 0 评论 -
springboot整合hive
springboot整合hive原创 2024-11-22 12:45:48 · 10570 阅读 · 0 评论 -
Java 封装 Echart 数据转图表 工具类
ListToChart 为数据转换工具类,其中包含了行列转换 、饼图、堆叠图(柱状图和折线图)、堆叠求和、堆叠百分比等转发方法。转换后的数据格式为 [rowKeyList,dataList,aliasList]行列转换工具原创 2024-11-12 02:41:15 · 10203 阅读 · 0 评论 -
mapreduce 将数据清洗后保存到 hbase
mapreduce 将数据清洗后保存到 hbase原创 2024-11-09 16:36:23 · 10042 阅读 · 0 评论 -
csv文件格式字符串转javabean对象
javabean对象转csv文件格式字符串csv文件格式字符串转javabean对象原创 2024-11-09 12:20:32 · 10053 阅读 · 0 评论 -
Java 处理 json 格式数据解析为 csv 格式
如果不使用 JSON 工具库,你可以手动解析 JSON 格式字符串并将其转换为 CSV 格式字符串。以下是一个简单示例,展示如何实现这一功能。原创 2024-11-09 09:30:17 · 10127 阅读 · 0 评论 -
hbase 工具类
hbase 自定义过滤器 工具类原创 2024-11-07 19:18:25 · 10135 阅读 · 0 评论 -
Vue3 + TypeScript + Vite + Echarts + DataV
Vue3 + TypeScript + Vite + Echarts + DataV原创 2024-10-09 21:42:46 · 10173 阅读 · 0 评论 -
openEuler linux 安装 finebi
openEuler 安装 finebi原创 2024-07-15 12:13:54 · 10048 阅读 · 0 评论 -
openEuler 安装 hive4
openEuler 安装 hive4原创 2024-07-01 10:57:45 · 10476 阅读 · 0 评论 -
openEuler搭建hadoop Standalone 模式
1. 升级软件2. 安装常用软件3. 关闭防火墙4. 修改主机名和IP地址5. 修改hosts配置文件6. 下载jdk和hadoop并配置环境变量7. 配置ssh免密钥登录8. 修改配置文件9. 初始化集群10. windows修改hosts文件11. 测试原创 2024-06-20 15:23:23 · 10182 阅读 · 0 评论 -
openEuler搭建hadoop 伪分布式集群
openEuler搭建hadoop Standalone 模式原创 2024-06-21 11:06:56 · 10522 阅读 · 0 评论 -
MySQL A表的字段值更新为B表的字段值
update login,person set person.mobile = login.account where login.person_id = person.id;原创 2024-06-04 11:30:34 · 10135 阅读 · 1 评论 -
Spark基础入门
sparkcore sparksql sparkstreaming structedstreming原创 2023-12-14 18:02:27 · 40805 阅读 · 0 评论 -
Java Date LocalDate LocalDateTime
Java中常用时间类型 Date LocalDate LocalDateTime 在工作中使用很频繁,但中间很多常用功能每次编写代码很繁琐,故而封装了以下三个工具类:DateUtil 日期工具类LocalDateUtil 新日期工具类LocalDateTimeUtil 新日期工具类用于日常使用。原创 2023-12-06 16:06:34 · 39520 阅读 · 0 评论 -
Scala 从入门到精通
大数据 spark scala 高阶函数 WordCount原创 2023-12-05 11:01:43 · 39583 阅读 · 2 评论
分享