
数据挖掘
文章平均质量分 79
白日与明月
厚德 博学 慎思 笃行
展开
-
pandas中的loc和iloc
pandas中的loc和iloc使用原创 2024-06-19 21:57:33 · 970 阅读 · 0 评论 -
连续活跃天数统计
基于SQL、python统计对象连续出现天数原创 2024-05-08 21:21:39 · 800 阅读 · 0 评论 -
数据预处理手段之【数据归一化】
数据预处理中的数据归一化介绍,列举常用归一化算法原创 2024-05-03 22:05:55 · 2701 阅读 · 0 评论 -
主成分分析(PCA)学习
主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,通常用于提取数据的主要特征分量。PCA 的目标是从原始数据中提取出最重要的特征,通过这些特征来简化数据的复杂性,同时保持数据集中的大部分信息。原创 2024-05-03 21:06:41 · 2740 阅读 · 0 评论 -
使用pyodps的表读写接口实现上传下载
使用pyodps的表读写接口实现上传下载原创 2024-05-01 10:16:31 · 355 阅读 · 0 评论 -
利用PyODPS高效上传下载数据
本文提供了一个使用PyODPS库的Tunnel接口,将数据下载到本地或者上传DataFrame对象到ODPS的实例。原创 2024-05-01 10:02:45 · 582 阅读 · 3 评论 -
DBSCAN算法学习
DBSCAN算法学习原创 2024-04-28 23:02:09 · 920 阅读 · 0 评论 -
k-均值聚类
k-均值聚类学习和应用原创 2024-04-24 00:07:42 · 990 阅读 · 0 评论 -
duckdb学习-1
使用python操作duckdb,duckdb的数据导入导出,查询元信息原创 2024-03-23 21:55:01 · 2274 阅读 · 0 评论 -
dbt-增量构建
增量构建是指在数据仓库的构建过程中,只处理自上次构建以来发生变化的数据,从而减少数据处理的时间和资源消耗。在 dbt 中,可以使用增量构建来提高数据处理的效率。dbt 中的增量构建是通过比较源表和目标表之间的差异来实现的。dbt 会记录源表和目标表之间的最后一次同步时间,并在下一次构建时只处理自上次同步时间以来发生变化的数据。dbt 的增量构建可以应用在许多场景中,提高数据处理的效率和速度,同时减少资源的消耗。原创 2024-02-27 23:00:49 · 883 阅读 · 0 评论 -
数据预处理
数据预处理摘录数据预处理中常考虑的要点数据标准化数据离散化数据抽样数据降维数据清理常用的数据标准化方法数据标准化是指将数据按照一定的比例进行缩放,使其落入一个特定的小区间.数据标准化可以加快模型的收敛速度,提高模型的精度.1.Min-Max标准化对原始数据进行线性变换,将值映射到[0-1]之间。计算公式如下:x′=x−xminxmax−xminx'=\frac{x-x_{min}}{x_{max}-x_{min}}x′=xmax−xminx−xmin2.Z-.原创 2021-05-17 22:02:36 · 406 阅读 · 0 评论 -
Jupyter地图可视化方案
文章目录背景IPython.display中的IFrame自定义函数背景因为一些特殊的原因,工作环境是和互联网隔离的.然而在工作中又经常遇到一些需要地图可视化的东西.找了一些资料,但是并不很理想.常见的方案就是Folium包…不过内网比较坑,地图加载也比较麻烦.(在外网也一样).于是萌生了一个想法…借助高德地图API(内网也有高德API),结合IPython的IFrame方法来做一些东西.IPython.display中的IFrame从一些资料上看到,在IFrame中,可以嵌入网页\PDF\图片等等原创 2020-12-29 00:04:36 · 2596 阅读 · 0 评论 -
数据仓库与数据挖掘 学习笔记 第二章 联机分析处理
OLAP是针对特定问题的联机数据访问和分析处理.通过对信息的多种可能形式进行快速,稳定,一致的交互式存取,允许决策者对数据进行深入的观察.\目录1. OLAP的相关概念.2.OLAP和OLTP的关系比较.3.OLAP准则1. OLAP的相关概念. 多维数据集:(数据立方体).多维数据集是一个数据集合,通常从数据仓库子集构造,并组织成一个由一组维度和度量值定义的多维结构...原创 2019-08-04 22:40:58 · 391 阅读 · 0 评论 -
数据仓库与数据挖掘 学习笔记 第一章 绪论
第一章 绪论引言:数据采集能力和手段增强存储设备技术发展海量数据库技术面临的问题新认识文章目录第一章 绪论1.数据仓库2.数据仓库的基本概念3.数据仓库的体系结构1.数据仓库数据仓库是以关系数据库,并行处理和分布式技术为基础的信息新技术.数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,用于支持股那里决策.面向主题: 数仓关注经常在的数据建模分析而不是...原创 2019-08-04 22:37:08 · 498 阅读 · 0 评论