
数据分析
文章平均质量分 67
数据分析专栏
程序员的世界你不懂
努力成就未来,专注于技巧,测试方法,python,linux,数据库,接口,性能,c++,java,工具分享等......相关技术内容
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据处理专题(十五)
在配置过程中,输入你的 AWS Access Key ID 和 Secret Access Key,以及默认区域和输出格式。通过今天的实践,你应该已经学会了如何完成一个从数据收集、预处理、建模到评估和部署的完整数据科学项目。AWS EC2 基础:了解 EC2 的基本概念和操作(虽然本例中主要使用 S3,但了解 EC2 也是有帮助的)。假设你已经下载了 train.csv 和 test.csv 文件,并将它们放在项目的 data 目录中。AWS S3 基础:了解 S3 的基本概念和操作。原创 2025-05-14 08:05:56 · 437 阅读 · 0 评论 -
数据处理专题(十四)
通过今天的实践,你应该已经学会了如何实现一个简单的数据加密算法(Caesar Cipher)。虽然 Caesar Cipher 是一种非常基础的加密方法,但它可以帮助你理解数据加密的基本原理。通过今天的实践,你应该已经学会了如何实现一个简单的数据加密算法(Caesar Cipher)。虽然 Caesar Cipher 是一种非常基础的加密方法,但它可以帮助你理解数据加密的基本原理。运行上述代码后,你将看到类似以下的输出:。运行上述代码后,你将看到类似以下的输出:。原创 2025-05-13 08:20:57 · 245 阅读 · 0 评论 -
数据处理专题(十三)
学会基本的图像处理技术。OpenCV 基础实践:使用 OpenCV 进行图像读取、显示和基本处理03代码示例1. 导入必要的库2. 图像读取3. 图像显示4. 图像基本信息5. 图像灰度化6. 图像裁剪7. 图像缩放8. 图像旋转9. 图像翻转10. 图像保存04实践05总结。原创 2025-05-12 08:00:15 · 337 阅读 · 0 评论 -
数据处理专题(十二)
深度学习基础01目标了解深度学习的基本概念。02学习内容神经网络基础Keras 基础实践:使用 Keras 构建一个简单的神经网络模型03代码示例1. 导入必要的库2. 加载示例数据集3. 数据预处理分割数据集标准化特征4. 构建神经网络模型定义模型编译模型5. 训练模型6. 评估模型在测试集上评估模型绘制训练过程中的损失和准确率7. 预测使用模型进行预测04。原创 2025-04-14 07:51:58 · 605 阅读 · 0 评论 -
数据处理专题(十一)
通过今天的练习,你应该已经学会了如何进行文本预处理(分词、去停用词)和计算 TF-IDF。实践:使用 Dask 处理一个大型 CSV 文件。使用 Pandas 进行可视化。初始化 TF-IDF 向量化器。保存为新的 CSV 文件。2. 创建示例文本数据集。按类别分组并计算平均值。查看数据的基本信息。查看特定列的唯一值。1. 导入必要的库。学会基本的自然语言处理技术。处理缺失值。原创 2025-04-10 07:50:19 · 314 阅读 · 0 评论 -
数据处理专题(十)
机器学习项目目标完成一个完整的机器学习项目。学习内容数据收集数据清洗特征工程模型训练模型评估模型部署代码示例加载数据集检查缺失值处理缺失值检查异常值标准化特征创建新特征分割数据集训练线性回归模型训练决策树模型训练随机森林模型使用 K 折交叉验证保存模型小结。原创 2025-04-09 08:23:09 · 502 阅读 · 0 评论 -
数据处理专题(九)
通过今天的练习,你应该已经学会了如何使用 Scikit-Learn 进行基本的数据建模,包括线性回归和决策树。通过今天的练习,你应该已经学会了如何使用交叉验证评估模型的性能,以及如何计算常见的评估指标如 MSE 和 R2。交叉验证是一种有效的评估方法,可以帮助你更好地了解模型在不同数据子集上的表现。使用 K 折交叉验证。训练线性回归模型。训练决策树模型。绘制预测结果。绘制预测结果。绘制预测结果。分割数据集。原创 2025-04-08 08:23:28 · 484 阅读 · 0 评论 -
数据处理专题(八)
df[['年龄', '收入', '身高']] = scaler.fit_transform(df[['年龄', '收入', '身高']])df[['年龄', '收入', '身高']] = scaler.fit_transform(df[['年龄', '收入', '身高']])'姓名': ['张三', '李四', '王五', '赵六', '孙七'],使用后向填充(backward fill)填充缺失值。使用前向填充(forward fill)填充缺失值。原创 2025-04-06 09:31:55 · 795 阅读 · 0 评论 -
数据处理专题(七)
melt 方法用于将宽格式数据转换为长格式数据,而 pivot 方法用于将长格式数据转换为宽格式数据。使用 SQL 语法查询 DataFrame。将长格式数据转换为宽格式数据。使用 not in 条件。使用 not in 方法。使用 isin 方法。使用 or 条件。使用 in 条件。使用多个条件。保留多个值。处理重复值。基本查询。使用变量。原创 2025-04-02 07:50:09 · 342 阅读 · 0 评论 -
数据处理专题(六)
通过今天的练习,你应该已经掌握了如何处理时间序列数据,包括日期时间类型、时间序列的切片和重采样,以及如何进行滚动窗口计算和可视化。使用 lambda 表达式。将字符串转换为日期时间。按部分索引选择数据。检查日期时间类型。对单列应用函数。对多列应用函数。按日期范围切片。计算滚动标准差。排序多级索引。按季度重采样。计算滚动平均。按月份切片。原创 2025-04-01 18:55:12 · 708 阅读 · 0 评论 -
数据处理专题(五)
通过今天的练习,你应该已经掌握了如何使用 Pandas 进行数据合并,包括使用 concat 方法和 merge 方法。通过今天的综合项目,你应该已经巩固了前 面的学习内容,包括数据读取、清洗、聚合和可视化等步骤。删除含有缺失值的行。指定多个键合并。绘制销售额的折线图和柱状图。实践:完成一个综合项目。检查缺失值。检查重复行。删除重复行。巩固前面的学习内容。内连接。左连接。外连接。原创 2025-03-31 07:49:57 · 435 阅读 · 0 评论 -
数据处理专题(四)
目标使用 Matplotlib 进行基本的数据可视化。学习内容绘制折线图绘制散点图绘制柱状图代码示例1. 导入必要的库2. 创建示例数据集3. 绘制折线图绘制单条折线图绘制多条折线图4. 绘制散点图绘制单个散点图绘制带颜色和大小变化的散点图5. 绘制柱状图绘制单个柱状图绘制堆叠柱状图绘制并排柱状图实践绘制一个数据集的折线图和柱状图。。原创 2025-03-29 08:48:37 · 748 阅读 · 0 评论 -
数据处理专题(三)
通过今天的练习,你应该已经掌握了如何使用 Pandas 进行基本的数据清洗,包括处理缺失值、重命名列和删除重复行。使用 loc 和 iloc 筛选数据。使用特定值填充缺失值。使用特定值填充缺失值。3. DataFrame 的创建。读取 CSV 文件。写入 CSV 文件。删除含有缺失值的行。删除含有缺失值的行。指定列删除重复行。指定列删除重复行。按条件筛选数据。原创 2025-03-20 08:21:18 · 614 阅读 · 0 评论 -
数据处理专题(二)
字典的方法(keys, values, items, get, update)。使用 linspace 创建数组。使用 arange 创建数组。使用 zeros 创建数组。使用 ones 创建数组。values 方法。items 方法。数组的索引和切片。计算数组的标准差。sort 方法。keys 方法。从列表创建数组。查看数组的形状。原创 2025-03-19 21:06:51 · 366 阅读 · 0 评论 -
数据处理专题(一)
9. 读取文件并统计特定单词出现的次数。编写一个简单的程序,计算两个数的和。10. 读取文件并替换特定内容。7. 读取文件并统计字符数。8. 读取文件并统计单词数。6. 读取文件并统计行数。3. 函数定义和调用。1. 打开和关闭文件。5. 追加内容到文件。2. 读取文本文件。3. 逐行读取文件。4. 写入文本文件。while 循环。原创 2025-03-19 08:00:11 · 414 阅读 · 0 评论