
数据挖掘
Preke
这个作者很懒,什么都没留下…
展开
-
特征选取relief算法
摘录的一个特征选取relief算法的一段java代码,还是讲的很清晰的 样本点之间的距离用欧氏距离来实现 原文链接: http://blog.youkuaiyun.com/nma_123456/article/details/51490637/** * relief算法 */ public void relief(){ matrix = new double[lengt转载 2017-07-23 21:06:20 · 2097 阅读 · 0 评论 -
Word2vec 入门(skip-gram部分)
Skip-gram给定句子中一个特定的词(input word),随机选它附近的一个词。网络的目标是预测 我们选到这个附近词的概率。输入,输出取窗口大小为2(前后两个词):得到一些词对: 如之中的(quick, brown) 训练神经网络时: 输入quick的one-hot编码, 输出层softmax分层的brown的概率应该是最大的隐层:我们训练一个简单的网络来执行一个任务,但是我们实际原创 2017-08-15 21:28:45 · 3771 阅读 · 1 评论 -
Apriori算法
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:原创 2017-09-07 17:45:21 · 470 阅读 · 0 评论 -
再论数据科学竞赛中的Data Leakage
越来越多的数据爱好者把注意力放在了数据竞赛上,像Kaggle数据竞赛。这类数据竞赛中,有时会遇到Data Leakage。而大部分人对Data Leakage的概念理解都是错误的。这次,我们来梳理一下Data Leakage,希望能让大家对数据中的因果关系更加重视。转载 2017-10-16 21:29:12 · 1425 阅读 · 0 评论 -
BDCI 2017 商铺预测(回忆)
一次结束,总归要写个回忆 一是以后写进简历的项目经历可以复习 二是对过去一个多月的时间的交代 (可能会较啰嗦吧, 穿插着回忆)比赛页面 比赛前一个多月前,组内大佬问我要不要参加这次CCF大赛,我确实不想参加,因为当时的我,申请没搞定,文书没搞定,套磁一个offer都没有,回信都没有。 都要失学了,做什么比赛啊。可是组内成员几乎都参赛了,组会都已经变成竞赛讨论的主题。我也在想,我进实验室这一年原创 2017-12-14 23:35:08 · 752 阅读 · 0 评论 -
Latent Semantic Analysis 笔记
传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是“原创 2018-01-03 16:51:07 · 431 阅读 · 0 评论