
数据工程师
文章平均质量分 90
数据仓库,数据挖掘
圆觉_
你的核心能力(做成产出)是什么?
展开
-
实战-基于阿里云搭建数据仓库(离线与实时)
离线:数据原创 2020-03-25 00:55:20 · 2639 阅读 · 0 评论 -
一文搞懂企业级数据仓库实战
数据仓库总结项目上线了,结合数据仓库实战视频,复盘总结下。历史的浪潮1、数仓痛点感受到疼痛的点烟囱式开发形成的数据孤岛和重复计算:–建模规范和开发规范各业务系统都存在汇率、证券信息等公开市场信息的重复计算,重复做;客户信息表是全量,更新很少,但需要某个历史时刻的客户状态,重复做;指标口径不一致导致数据可信度下降 : --指标字典同样的股基交易量,要和...原创 2020-03-11 01:04:20 · 1561 阅读 · 0 评论 -
Kmeans聚类算法 python sklearn 用户画像
1、基本概念;聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇(cluster),使得簇中的样本彼此相似,但与其他簇中的样本不相似。聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此它是一种典型的无监督学习算法,一般用于数据探索,比如群组发现和离群点检测,还可以作为其他算法的预处理步骤。在工作中遇到用户画像、群组划分问题原创 2017-08-17 20:54:12 · 12949 阅读 · 1 评论