
【项目】机器学习
机器学习知识点
辉哥大数据
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
TF-IDF(词频-逆文档频率)介绍
概念 词频-逆文档频度(Term Frequency - Inverse Document Frequency,TF-IDF)技术,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 ,但同时会 随着它在语料库中出现的频率成反比下降 。如果某个...原创 2019-12-11 14:55:34 · 6093 阅读 · 2 评论 -
Hive中row_number()函数用法详解及示例
目录一、Hive 中row_number()函数介绍二、使用示例三、总结四、附录在Oracle中,我们经常会用到row_number() over(partition by clo1 order by clo2 desc) 方法来取表中clo1 重复记录clo2最大的一条或几条记录,那在Hive上row_number()是否存在这个函数,其具体的用法是怎么样的呢?下面我们通过具体的示...原创 2019-04-26 10:51:17 · 12884 阅读 · 0 评论 -
Mysql教程(十二)---cross join 的用法(笛卡尔积)
CROSS JOIN又称为笛卡尔乘积,实际上是把两个表乘起来。[实例]:SQL CROSS JOIN will return all records where each row from the first table is combined with each row from the second table. Which also mean CROSS JOIN returns the...原创 2019-12-06 15:08:57 · 1717 阅读 · 0 评论 -
数学常识--数学符号常识
科学计数法中的E在科学计数法中,为了使公式简便,可以用带“E”的格式表示。E(代表指数)表示将前面的数字乘以 10 的 n 次幂。1.23E+10,即 1.23 乘以 10 的 5 次幂 = 1230001.23E-10,即 1.23 乘以 10 的 -5 次幂 = 0.0000123自然指数e自然指数e,为自然对数的底数,有时亦称之为欧拉数(Euler’s Number),是一个无限...原创 2019-12-05 22:08:46 · 15780 阅读 · 3 评论 -
数学常识--标准差、方差、协方差三者的表示意义
三者都是统计学中,对于样本的集合描述。一、定义公式 1.标准差: 2.方差: 3.协方差: 4.协方差相关系数:二、数学实际含义 ...原创 2019-12-05 16:22:18 · 4904 阅读 · 0 评论 -
数学常识--两点之间距离公式
方差和标准差标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。⒈方差 s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n)(x为平均数)⒉标准差...原创 2019-12-05 18:33:47 · 7168 阅读 · 0 评论 -
Spark机器学习--组件Mllib的学习 RowMatrix行矩阵
一、解释分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵功能一次增加二、代码:/** * Spark MlLib机器学习实战 */package org.apache.spark.mllib.learning.basic import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spa...原创 2019-11-06 13:12:05 · 642 阅读 · 1 评论 -
Spark机器学习--矩阵的定义——scala版本
目录一、本地向量二、含类标签的点三、稀疏数据Sparse data四、本地矩阵五、分布式矩阵5.1 面向行的分布式矩阵(RowMatrix)5.2行索引矩阵(IndexedRowMatrix)5.3三元组矩阵(CoordinateMatrix)一、本地向量 本地向量的基类是 Vector,我们提供了两个实现 DenseVec...原创 2019-11-06 13:09:15 · 659 阅读 · 0 评论 -
Spark机器学习--四种归一化方法总结及图文解释
目录:一、描述二、数据准备三、 Normalizer四、 StandardScaler五、 MinMaxScaler六、MaxAbsScaler七、总结一、描述org.apache.spark.ml.feature包中包含了4种不同的归一化方法:NormalizerStandardScalerMinMaxScalerMaxAbsScaler &nbs...原创 2019-10-21 15:02:00 · 2013 阅读 · 1 评论