- 博客(11)
- 收藏
- 关注
原创 特征选择
通常从两个方面考虑来选择特征:特征是否发散:如果说一个特征不发散(比如方差接近于0),样本在这个特征上基本没有差异,那么这个特征对于样本的区分并没有什么作用 特征与目标的相关性根据特征选择的形式,可以将特征选择方法分为3种:1)Filter过滤法:先进行特征选择,再训练学习器,特征选择过程与后续学习器无关。方差选择法:先计算各特征方差,设置方差阈值筛选 相关系数法:先计算各特征目...
2019-03-19 15:21:57
920
原创 FM算法原理
演变过程:线性模型->二项式模型->FM模型线性模型$f(x) = \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n=\omega_0+\sum_{i=1}^n{\omega_ix_i}$二项式模型$f(x)=\omega_0+\sum_{i=1}^n\omega_ix_i+\sum_{i=1}^{n-1}\sum_{j=...
2019-03-18 16:59:46
901
原创 word2vec源码阅读笔记
word2vec源码阅读笔记,结合代码加深对word2vec的理解1. sigmoid函数的近似计算expTable2. 构建词汇库词汇表训练过程 -> LearnVocabFromTrainFile()ReadWordIndex()读取一个单词 -> ReadWord()计算单词对应hash值 -> GetWordHash()通过hash值得到单词在词汇表...
2019-03-18 16:38:53
516
原创 数学基础补充归纳大纲(持续更新...)
1. 先验概率、后验概率、贝叶斯的区别和联系?这篇讲得比较好 https://blog.youkuaiyun.com/yewei11/article/details/505376482. 协方差和相关性有什么区别?相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。为了解决这个问题,我...
2019-03-04 10:27:27
197
原创 Spark学习笔记五:组件篇
一、Spark Mlib数据类型本地向量 Local Vector:密集型、稀疏型标签点 Labeled PointMlib中的矩阵其实是向量型的RDD本地矩阵 Local Matrix分布式矩阵:分布式存储在一个或多个RDD。将一个分布式矩阵转换为另一个不同格式的需要Shuffle行矩阵:RDD[Vector]行索引矩阵:RDD[IndexedRow]三元组矩阵:RDD[M...
2019-03-04 10:01:05
250
原创 Spark学习笔记四:算子
一、什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作(transformation和action)transformation不触发提交作业;action出发SparkContext提交Job作业二、常用算子不完全归纳Transformation转换操作基础转换操作map、mapPartitions、mapPartitionsWithIndexdisti...
2019-03-04 00:54:12
431
原创 Spark学习笔记三:开发环境配置安装
在了解基本原理后,配置一个Spark开发环境,便于之后的学习。这部分网上有很多教程,这里贴一个参考MAC版:https://blog.youkuaiyun.com/u013384984/article/details/79680967另外,除了单机环境的配置,在实际开发应用中会涉及到分布式部署的方式Standalone自带完整服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。没有任何单...
2019-03-04 00:33:52
218
原创 Spark学习笔记二:核心原理
1. 消息通信原理Spark启动消息通信:启动过程主要是进行Master与Worker之间的通信Worker节点向Master发送注册消息Master处理完后,返回注册成功(失败)消息若成功,则Worker定时发送心跳消息给MasterSpark运行时消息通信:应用程序的SparkContext向Master发送应用注册消息Master给该应用分配ExecutorEx...
2019-03-04 00:24:14
237
原创 Spark学习笔记一:运行流程
最近在看《图解Spark:核心原理与技术实践》,为了便于自己温故而知新,已经检验理解是否到位,以下是记录的学习笔记。我的一般学习思路是首先学会用,再来深入学习。所以,首先由Spark的运行流程切入:一、运行流程从Spark的运行流程入手,学习了解Spark的核心组成。下面是Spark的一个基本运行流程整个过程包括:提交作业、划分调度阶段(78)、提交调度阶段(9)、提交执行任务(101...
2019-03-04 00:11:23
232
原创 三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)
https://zhuanlan.zhihu.com/p/24037830?refer=liulingyuanTF-IDF算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d
2018-02-05 22:41:42
40250
转载 Keras---text.Tokenizer和sequence:文本与序列预处理
http://blog.youkuaiyun.com/lovebyz/article/details/777120031 简介在进行自然语言处理之前,需要对文本进行处理。 本文介绍keras提供的预处理包keras.preproceing下的text模块与序列处理模块sequence模块2 text模块提供的方法text_to_word_sequence(text,file
2018-01-24 13:47:58
6621
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人