
数据分析
文章平均质量分 69
李昊哲小课
这个作者很懒,什么都没留下…
展开
-
基于文本的情感分析
1. 数据加载与特征转换2. 数据集划分3. 模型训练4. 模型测试5. 输出信息量较大的特征6. 对输入的句子进行情感分析7. 使用SnowNLP进行情感分析8. 主函数原创 2025-04-15 08:39:44 · 2612 阅读 · 0 评论 -
Pandas 中透视表(`pivot_table`)和交叉表(`crosstab`)的区别
**核心区别**1. **透视表 (`pivot_table`)** - 用于对数据进行 **聚合计算**(如求和、均值、计数等)。 - 支持多维度分组(行、列、甚至多层索引)。 - 可以指定 `values`(要聚合的值)和 `aggfunc`(聚合函数)。2. **交叉表 (`crosstab`)** - 专门用于 **计算频率分布**(即列联表,统计不同组合的出现次数)。 - 默认行为是计数,但也可通过参数自定义聚合函数。 - 语法更简洁,适合快速生成原创 2025-04-13 17:22:41 · 2723 阅读 · 0 评论 -
pandas 关于 `merge` 和 `join` 的区别
1. **`merge`**: - 更通用的合并方法,支持基于**列**或**索引**的合并。 - 可以指定左右DataFrame的合并键(`left_on`, `right_on`)。 - 支持多种合并方式(内连接、外连接、左连接、右连接)。2. **`join`**: - 是 `merge` 的简化版,默认基于**索引**合并。 - 只能基于**左DataFrame的索引**和**右DataFrame的索引或指定列**合并。 - 语法更简洁,适合快速操作。原创 2025-04-13 17:18:49 · 2516 阅读 · 0 评论 -
python 多数据源整合
【代码】python 多数据源整合。原创 2025-04-13 09:35:51 · 2586 阅读 · 0 评论 -
pyecharts常用图形
pyecharts 是一个强大的 Python 可视化库,它支持绘制多种类型的图表,以下是一些常见的图表类型原创 2025-04-08 15:53:37 · 3259 阅读 · 0 评论 -
seaborn基本绘图
# 导入绘图库 matplotlib 的 pyplot 模块,用于绘制图形。from matplotlib import pyplot as plt# 导入 pandas 库,用于数据处理和分析。import pandas as pd# 导入 seaborn 库,用于绘图import seaborn as sns原创 2025-04-01 18:00:16 · 4234 阅读 · 0 评论 -
seaborn 完整案例
使用 seaborn 进行数据可视化的完整案例原创 2025-03-31 17:08:30 · 4307 阅读 · 0 评论 -
matplotlib完整案例
Matplotlib 是 Python 中一个流行的绘图库,用于创建各种静态、动态和交互式的图表。本文将通过一系列完整的案例来教授如何使用 Matplotlib 进行数据可视化。原创 2025-03-25 16:34:16 · 4767 阅读 · 0 评论 -
垃圾短信分类
1. 数据加载阶段特别指定手机号为字符串类型,避免解析错误2. 清洗过程中通过 lambda 表达式生成垃圾短信标签,规则可根据需要调整3. 脱敏处理采用部分隐藏的方式保护隐私,同时处理异常情况4. 分词过程包含 URL 替换和停用词过滤,提高文本表示质量5. 模型训练使用 TF-IDF + 多项式贝叶斯组合,适合短文本分类6. 可视化部分展示了数据分布和关键词云,帮助理解数据特征原创 2025-03-25 11:24:55 · 4578 阅读 · 0 评论 -
Matplotlib 中指定本地字体库
在 Matplotlib 中指定本地字体库可以通过以下几种方法实现原创 2025-03-24 14:44:44 · 4767 阅读 · 0 评论 -
关键词提取案例
在电商行业中,用户评论是了解用户需求和产品反馈的重要数据来源。通过分析用户评论,可以提取出用户关注的关键词,从而帮助商家优化产品和服务。本案例将展示如何结合`pandas`数据清洗、`jieba`分词和`scikit-learn`关键词提取技术,处理和分析用户评论数据。原创 2025-03-21 09:32:41 · 5082 阅读 · 0 评论 -
pandas基础
import pandas as pd# 设置DataFrame显示的宽度pd.set_option('display.width', 800) # 设置最大宽度为800个字符pd.set_option('display.max_columns', 100) # 最大列数为100原创 2025-03-11 16:19:41 · 5731 阅读 · 0 评论 -
python 正则表达式 re模块 练习
python 正则表达式 re模块 练习原创 2025-03-10 11:17:00 · 5878 阅读 · 0 评论 -
基于规则的分词
基于规则或词典的分词方法是一种较为机械的分词方法,其基本思想如下。将待分词语句中的字符串和词典逐个匹配。找到匹配的字符串则切分,不匹配则减去边缘的某些字符。从头再次匹配,直至匹配完毕或者没有找到词典的字符串而结束。基于规则分词主要方法如下。正向最大匹配法(Maximum Match Method,MM法)。逆向最大匹配法(Reverse Maximum Match Method,RMM法)。双向最大匹配法(Bi-direction Matching Method,BMM法)。原创 2025-03-04 09:40:16 · 6787 阅读 · 0 评论 -
Jupyter Notebook中使用GPU进行计算
在Jupyter Notebook中使用GPU进行计算原创 2025-02-25 11:02:03 · 7834 阅读 · 0 评论 -
deepin 安装 zookeeper
deepin 安装 zookeeper原创 2024-12-23 15:16:16 · 9924 阅读 · 0 评论 -
deepin 安装 hbase
deepin 安装 hbase原创 2024-12-20 09:20:37 · 9324 阅读 · 0 评论 -
scala 编写 hdfs 工具类
scala 编写 hdfs 工具类scala 创建 删除 hdfs 文件或目录scala 上传 下载 hdfs 文件 scala 读取 写入 hdfs 文件原创 2024-12-05 10:20:15 · 9816 阅读 · 0 评论 -
scala math 匹配模式
在Scala语言中,模式匹配是一种强大的控制结构,它允许你以声明式的方式检查一个值是否符合某个模式,并根据匹配的结果执行不同的代码块。Scala的模式匹配类似于正则表达式,但更加通用,可以用于数据结构的匹配。原创 2024-12-02 10:23:46 · 9915 阅读 · 0 评论 -
springboot整合presto
springboot整合presto原创 2024-11-22 16:08:19 · 9358 阅读 · 0 评论 -
springboot整合hive
springboot整合hive原创 2024-11-22 12:45:48 · 9935 阅读 · 0 评论 -
Java 封装 Echart 数据转图表 工具类
ListToChart 为数据转换工具类,其中包含了行列转换 、饼图、堆叠图(柱状图和折线图)、堆叠求和、堆叠百分比等转发方法。转换后的数据格式为 [rowKeyList,dataList,aliasList]行列转换工具原创 2024-11-12 02:41:15 · 9340 阅读 · 0 评论 -
mapreduce 将数据清洗后保存到 hbase
mapreduce 将数据清洗后保存到 hbase原创 2024-11-09 16:36:23 · 9330 阅读 · 0 评论 -
csv文件格式字符串转javabean对象
javabean对象转csv文件格式字符串csv文件格式字符串转javabean对象原创 2024-11-09 12:20:32 · 9336 阅读 · 0 评论 -
Java 处理 json 格式数据解析为 csv 格式
如果不使用 JSON 工具库,你可以手动解析 JSON 格式字符串并将其转换为 CSV 格式字符串。以下是一个简单示例,展示如何实现这一功能。原创 2024-11-09 09:30:17 · 9346 阅读 · 0 评论 -
hbase 工具类
hbase 自定义过滤器 工具类原创 2024-11-07 19:18:25 · 9311 阅读 · 0 评论 -
Vue3 + TypeScript + Vite + Echarts + DataV
Vue3 + TypeScript + Vite + Echarts + DataV原创 2024-10-09 21:42:46 · 9355 阅读 · 0 评论 -
openEuler linux 安装 finebi
openEuler 安装 finebi原创 2024-07-15 12:13:54 · 9336 阅读 · 0 评论 -
openEuler 安装 hive4
openEuler 安装 hive4原创 2024-07-01 10:57:45 · 9911 阅读 · 0 评论 -
openEuler搭建hadoop Standalone 模式
1. 升级软件2. 安装常用软件3. 关闭防火墙4. 修改主机名和IP地址5. 修改hosts配置文件6. 下载jdk和hadoop并配置环境变量7. 配置ssh免密钥登录8. 修改配置文件9. 初始化集群10. windows修改hosts文件11. 测试原创 2024-06-20 15:23:23 · 9333 阅读 · 0 评论 -
openEuler搭建hadoop 伪分布式集群
openEuler搭建hadoop Standalone 模式原创 2024-06-21 11:06:56 · 10085 阅读 · 0 评论 -
MySQL A表的字段值更新为B表的字段值
update login,person set person.mobile = login.account where login.person_id = person.id;原创 2024-06-04 11:30:34 · 9343 阅读 · 1 评论 -
Spark基础入门
sparkcore sparksql sparkstreaming structedstreming原创 2023-12-14 18:02:27 · 40320 阅读 · 0 评论 -
Java Date LocalDate LocalDateTime
Java中常用时间类型 Date LocalDate LocalDateTime 在工作中使用很频繁,但中间很多常用功能每次编写代码很繁琐,故而封装了以下三个工具类:DateUtil 日期工具类LocalDateUtil 新日期工具类LocalDateTimeUtil 新日期工具类用于日常使用。原创 2023-12-06 16:06:34 · 39250 阅读 · 0 评论 -
Scala 从入门到精通
大数据 spark scala 高阶函数 WordCount原创 2023-12-05 11:01:43 · 39229 阅读 · 2 评论 -
Sakila数据库和World数据库
安装MySQL8.2的时候多出两个样例数据库Sakila数据库和World数据库原创 2023-12-03 22:40:59 · 44904 阅读 · 0 评论 -
shell 脚本计算距离最近的坐标
shell 脚本计算距离最近的坐标原创 2023-12-02 13:00:06 · 38884 阅读 · 0 评论 -
shell 脚本批量处理文件后缀名
flumes收集日常完成后会对收集的文件添加`.COMPLETED`后缀名。我仍然使用原文件名,于是萌生了编写 shell 脚本批量删除文件后缀名的想法。效果很好,但整个脚本功能太多单一,如果想按需修改文件后缀名呢?于是编写了 shell 脚本批量修改文件后缀名。原创 2023-12-02 12:46:23 · 38799 阅读 · 0 评论 -
直播电商数据仓库
数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。但当数据量几何式增长,需要跨机器整合时,数仓就是非常必要的了。原创 2023-12-01 15:14:34 · 39851 阅读 · 0 评论 -
finebi 新手入门案例
原始数据并没有毛利额,毛利额需要我们自己计算产生毛利额 = 销售额 - 成本额自定义图表由于纵轴指标聚合,毛利额和毛利率数值相差巨大故而毛利率显示并不明显解决方法:将纵轴指标聚合修改为指标并列设置值轴。原创 2023-11-30 21:20:00 · 42609 阅读 · 2 评论