
数据挖掘
文章平均质量分 59
limengxinlirongrong
这个作者很懒,什么都没留下…
展开
-
word2vec原理机制(转)
http://blog.youkuaiyun.com/itplus/article/details/37969817转载 2017-03-20 17:25:35 · 304 阅读 · 0 评论 -
hashtree处理哈希冲突的数据结构
这个文章上写的挺明白http://blog.youkuaiyun.com/yang_yulei/article/details/46337405转载 2016-12-28 16:35:36 · 317 阅读 · 0 评论 -
mapreduce中的shuffle
http://www.aboutyun.com/thread-7078-1-1.html?nsukey=5oO5WkWQ%2BaQAmEzbAhGX2ib%2BmkZDwz5e%2Fy%2FzBMIRgCTefUydcjlMQTnyVgDGK6CIZIZjhYjUM%2Bx8jEy5Q3VPMx3wwrs3QEghqBSBUHgKeLsDRPtuPjbzHeDYNiEsizRKe92MrJ转载 2016-12-06 14:06:22 · 268 阅读 · 0 评论 -
LDA及 专家发现小论文
首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为: 这个概率公式可以用矩阵表示: 其中”文档-词语”矩阵表示每个文档中每个单词的词频,即出原创 2016-10-17 22:38:30 · 375 阅读 · 0 评论 -
unique path II 动态规划 用一位数组完成
上面这个是我自己写的 用二维数组 记录到达每个位置的路径个数、public int uniquePathsWithObstacles(int[][] g) { if(g.length==0||g==null) return 0; int m=g.length; int n=g[0].length; int[][]原创 2016-09-12 21:58:41 · 326 阅读 · 0 评论 -
动态规划
能采用动态规划求解的问题的一般要具有3个性质: (1) 最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构,即满足最优化原理。 (2) 无后效性:即某阶段状态一旦确定,就不受这个状态以后决策的影响。也就是说,某状态以后的过程不会影响以前的状态,只与当前状态有关。 (3)有重叠子问题:即子问题之间是不独立的,一个子问题在下一阶段决策原创 2016-08-28 17:43:11 · 826 阅读 · 0 评论 -
回溯算法
import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class ConbinnationSum { List> ll=new ArrayList>(); public static void main(String[] args) {原创 2016-08-26 10:41:38 · 269 阅读 · 0 评论 -
TF-IDF 原始用去 计算判断 某个词语对文章的重要性
TF-IDF 我在对新闻分类的工作中用过 找文本的关键词后来 做新闻实体共现网络的时候 又用来找新闻文本中的关键实体今天 好好把它看了下 就是TF 和 IDF 两部分乘积嘛 后期有很多参数改进嘛原创 2016-06-13 16:40:47 · 461 阅读 · 0 评论 -
关于基于复杂网络的数据挖掘的学习笔记
最近一直投身 复杂网络的各种问题 简单记录一下 我这一路关注的问题开始学到用聚集系数来判别垃圾短信的发送号码 我就想临摹一个 用聚集系数在微信朋友关系中 判别微商 结果是失败的 一是取不到数据 二是 微商很多就是买给熟人 他的朋友不一定不是朋友 他的聚集系数就不一定低 所以失效然后我就对聚集系数依旧念念不忘 寻找他与网络基本属性:度分布 中介性 介数 k-c原创 2015-12-09 21:22:52 · 2529 阅读 · 3 评论 -
mapreduce Wordcount输入文件在hdfs上的实例
package org.tseg.hadoop.example;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hdfs.DistributedFileSys原创 2015-11-23 21:02:26 · 478 阅读 · 0 评论 -
重拾 hadoop mapreduce 学习 一
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2015-11-23 19:16:38 · 344 阅读 · 0 评论 -
用中科院ICTCLAS2015分词器的java接口
要做中文文本的分类 自然首要步骤就是分词(切词)咯 就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后 得到如下调用ICTCLAS2015分词器的java接口的方法另附:还有一个同学写的方法 http://blog.youkuaiyun.com/blockheadls/article/details/49737599#userconsent#1、在ICT原创 2015-11-22 22:22:15 · 1310 阅读 · 0 评论