
数据挖掘
文章平均质量分 85
李孟聊人工智能
独立开发,Substack和Medium顶级编辑
展开
-
机器学习系列--贝叶斯分类算法
简介贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注:朴素的意思是条件概率独立性此处要想真正理解,需要有概率论的基础知识P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A|x3)p(A|x4)则为条件概率独立P(xy|z)=p(xyz)/p(z)=p(xz)/p(z)...原创 2018-09-09 18:38:50 · 3251 阅读 · 0 评论 -
机器学习-数学基础01
未完待续!原创 2018-06-29 06:46:07 · 1624 阅读 · 1 评论 -
机器学习-数学基础02
承接:数学基础01原创 2018-07-29 21:32:26 · 1686 阅读 · 1 评论 -
机器学习-数学基础02补充
承接:数据基础02原创 2018-08-04 15:58:30 · 1744 阅读 · 1 评论 -
机器学习-数学基础03
承接url:机器学习-数学基础02补充原创 2018-08-19 14:22:58 · 1819 阅读 · 1 评论 -
精益数据分析-商业模式
一.简介it行业中,许多数据分析框架的诞生,它们帮助我们理解创业和创业在不同阶段所经历的变化,并助力创业公司获取客户和创造营收。每一套框架对创业的生命周期都有着不同的视角,分别提出一系列值得关注的数据指标和领域。 二.“海盗指标”(需要关注指标,用户/客户/访客须经历的五个环节)1.获取用户相关指标:流量、提及量、CPC(每次点击费用)、搜索结果、用户获取成本、点开率2. 提高...原创 2018-06-02 14:19:53 · 2523 阅读 · 0 评论 -
精益数据分析-指标
"精益"是很好的创业方法,"数据分析法"则保证数据的收集与分析。二者均可从根本上改变你对企业开创与发展的看法。它们不仅仅是一种方法,还是一种思维模式。精益分析思想指提出正确问题,并重点关注那项可达成你期望结果的关键指标。 一.好的指标定义有比较性 简单易懂 比率 会改变行为:随着指标变化,你是否会采取相应的措施? 二.正确指标1.定性指标与量化指标 2.虚荣指标...原创 2018-05-28 17:31:41 · 1423 阅读 · 0 评论 -
机器学习系列--KNN分类算法
一.机器学习简介机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论,统计学,逼近论,凸分析、算法复杂度理论等多门学科。专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。目前,世界上共有几百种不同的机器学习算法。 ...原创 2018-08-10 20:27:22 · 2047 阅读 · 0 评论 -
机器学习系列--KNN分类算法例子
url:机器学习系列--KNN分类算法用的是spark2.0.2,scala2.11import org.apache.spark.{SparkConf, SparkContext}object knntest { /** * 欧式距离 * 计算两点间的距离 * @param rs as r1,r2, ..., rd * @param ss as ...原创 2018-08-10 20:32:33 · 1907 阅读 · 0 评论 -
机器学习系列--数据预处理
预处理现实世界数据源极易受噪声、缺失值和不一致数据的侵扰。低质量的数据将导致低质量的挖掘结果。 属性是一个数据字段,表示数据对象的一个特征。标称属性:一些符号或者事物的名称,比如:职业,学历 二元属性:一种标称属性,只有两个类别或者状态:0或1,其中0表示不出现,1表示出现。对称,比如:男女,没有偏好。非对称,比如:疾病,阴性和阳性,结果不是同样重要。 序数属性...原创 2018-09-04 14:51:04 · 6084 阅读 · 0 评论 -
机器学习系列--kmeans分类算法
简介K-means算法是集简单和经典于一身的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因为把得到紧凑且独立的簇作为最终目标。 算法核心思想通过迭代寻找k个类簇的一种划分方案,使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各...原创 2018-09-09 18:27:39 · 4087 阅读 · 0 评论 -
Spark-线性回归示例01
房屋普查,预测房价,最后预测结果不太准确,后续会调整,可能的原因:最直接原因指标项没有强线性关系,使用的参数不准确。只是为了熟悉下流程。import org.apache.spark.ml.feature.StandardScalerimport org.apache.spark.sql.types.{DoubleType, FloatType, StructField, Struct...原创 2019-06-12 15:45:52 · 1485 阅读 · 0 评论