
数据挖掘
文章平均质量分 93
英雄史诗
这个作者很懒,什么都没留下…
展开
-
支持向量机
支持向量机(SVMs)是一种用于分类、回归和异常检测的方法。原创 2024-09-21 18:16:51 · 952 阅读 · 1 评论 -
决策树与随机森林
纯度、不纯度:根据某个属性分割数据集,样本类型的集中度,纯度越高越高。训练数据、测试数据都是来自已知的数据集,然后划分为2部分,一部分训练、一部分测试(验证),也就是在已知的数据集内完成训练和验证,才能去预测实战。随机,指构造单棵决策树时,随机的选择样本,使得决策树是不同,或者侧重不同的能力。2.利用属性、属性值构造一个决策的路径,可类比程序的if_else的多层判断。与感性的分配有差异,属性排序:婚姻、有房者、年收入。问题:因为属性、属性性值、先后顺序,决策树有指数个肯能,哪个是最优?原创 2023-08-03 17:26:52 · 1916 阅读 · 1 评论 -
到底什么是数据中台?
如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?转载 2022-04-07 16:11:32 · 9274 阅读 · 2 评论 -
SVD简化数据
1.SVD数学原理1.1把矩阵拆解成3个子矩阵svd(mat)=U * sigma * VT1.2sigma仅对角线有数据的矩阵对角线数据的和代表矩阵的能量对角线数据由大到小排列前i个和>=80%,则原始数据可有n维降维i维1.3应用方法数据降维:mat.T*U[:,i]*sigma[:i].I压缩(算法表示数据)1.4特点简化数据适用数值型数据难以解释...原创 2018-11-01 20:18:01 · 230 阅读 · 0 评论 -
numpy知识点
setting an array element with a sequence &:矩阵的列没有对齐,把没对齐的数据补上就可以了 myCentroids3: [[list([-2.7401050416666664, 2.400959708333333]) matrix([[2.93386365, 3.12782785]]) matrix([[-0.14863231, -2....原创 2018-09-21 10:17:11 · 333 阅读 · 0 评论 -
numpy的matrix常用方法及与array的关系
引言使用numpy过程中,经常涉及mat和array的使用、相互转换,用的糊里糊涂,一不小心就报错。现在就系统的梳理下两者的用法和关系。matrix与array的关系matrix是np.array的子集,mat是只能是二维矩阵,当做线代的矩阵。array可以是n维矩阵。numpy里函数大多默认返回array类型。如zeros、ones、arrange等array的方法mat也大多支持,...原创 2018-09-20 16:48:01 · 515 阅读 · 0 评论 -
数据挖掘相关基础数学知识
函数可导的?满足3个条件:1)x点函数有值2)x附近范围内函数是连续的3)x的左(x减小一点点)、右(x增大一点点)导数是相同的偏导数 partial derivative(直译部分导数),对多元方程求导,因为增加了自变量求导难度变大。为了简化求导,把除一个变量外的其他变量都看做常量求导。 已z=x^2+2xy+y^2为例,z关于x的偏导=2x+2y;z关于y的...原创 2018-07-25 17:11:58 · 1999 阅读 · 0 评论 -
数据挖掘_探索数据
一、定义对数据进行初步研究,更好的了解数据的特性,用以选择更合适的数据分析技术。二、汇总统计summary statistics1.频率:具有属性v的对象数/对象总数(某属性在样本中出现的频率) 2.众数:最高频率的值。 位置度量:均值、中位数。 3.百分位数percentile:对有序数据在指定百分比位的值。如二八法则 4.均值mean:平均数...原创 2018-07-03 16:04:40 · 279 阅读 · 0 评论 -
数据挖掘_数据
1、抽样:对关注的属性,样本与原始数据集有相同的性质,则用抽样计算的结果与全集是一样。 1.1 抽样的方法 - 1)简单随机抽样(simple random sampling):放回、不放回 - 2)分层抽样(stratified sampling):如果数据集不同类型的数据数量差异过大,则随机抽样会丢失数量少的样本。可针对不同数据组,按比例抽取样本。 - 3)渐进抽样:样本容量越大,...原创 2018-07-03 16:03:16 · 1079 阅读 · 0 评论 -
DM是做什么的?
一、DM的定义数据中探查,发现未知的有用知识的过程。与数据库中查询个别记录的数据检索不同。二、DM的一般过程1、数据收集2、数据预处理3、数据挖掘4、后处理:模式过滤、可视化、模式表示5、提供信息DM设计中要考虑的问题: 1.可伸缩性:海量数据下算法依然可行 2.高维性:维度越高计算复杂度越高 3.非结构和复杂数据:如web数据、基因3D数据 ...原创 2018-07-03 15:57:31 · 6177 阅读 · 0 评论 -
异常值检测
异常检测的使用场景1)信用卡欺诈:盗刷信用卡的行为与持卡人的正常消费不同。 2)入侵检测:通过监视系统和网络异常行为来检测对收集信息的入侵。 3)生态系统失调:预测极端气候的似然度和成因。 4)疫苗接种:接种疫苗后,散布在城市各医院的少量病例是异常,可能揭示该城市接种程序方面的问题。 5)医疗:不寻常的症状或检查结果可能指出潜在健康问题。异常值检测方法1)基于统计学:假设数...原创 2018-06-27 17:15:44 · 815 阅读 · 0 评论