- 博客(15)
- 收藏
- 关注
原创 word ladder2
http://www.bubuko.com/infodetail-914469.htmlhttps://www.cnblogs.com/ShaneZhang/p/3748494.html还行 看看这俩解释就行
2019-08-14 16:12:51
131
转载 word2vec原理机制(转)
http://blog.youkuaiyun.com/itplus/article/details/37969817
2017-03-20 17:25:35
302
转载 hashtree处理哈希冲突的数据结构
这个文章上写的挺明白http://blog.youkuaiyun.com/yang_yulei/article/details/46337405
2016-12-28 16:35:36
316
转载 mapreduce中的shuffle
http://www.aboutyun.com/thread-7078-1-1.html?nsukey=5oO5WkWQ%2BaQAmEzbAhGX2ib%2BmkZDwz5e%2Fy%2FzBMIRgCTefUydcjlMQTnyVgDGK6CIZIZjhYjUM%2Bx8jEy5Q3VPMx3wwrs3QEghqBSBUHgKeLsDRPtuPjbzHeDYNiEsizRKe92MrJ
2016-12-06 14:06:22
266
原创 LDA及 专家发现小论文
首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为: 这个概率公式可以用矩阵表示: 其中”文档-词语”矩阵表示每个文档中每个单词的词频,即出
2016-10-17 22:38:30
369
原创 unique path II 动态规划 用一位数组完成
上面这个是我自己写的 用二维数组 记录到达每个位置的路径个数、public int uniquePathsWithObstacles(int[][] g) { if(g.length==0||g==null) return 0; int m=g.length; int n=g[0].length; int[][]
2016-09-12 21:58:41
323
原创 动态规划
能采用动态规划求解的问题的一般要具有3个性质: (1) 最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构,即满足最优化原理。 (2) 无后效性:即某阶段状态一旦确定,就不受这个状态以后决策的影响。也就是说,某状态以后的过程不会影响以前的状态,只与当前状态有关。 (3)有重叠子问题:即子问题之间是不独立的,一个子问题在下一阶段决策
2016-08-28 17:43:11
818
原创 回溯算法
import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class ConbinnationSum { List> ll=new ArrayList>(); public static void main(String[] args) {
2016-08-26 10:41:38
266
原创 决策树 逻辑回归 KNN 的原理
决策树:每个内部节点代表一种特征 叶子节点代表 一种分类。基于训练数据建立决策树的过程是 特征选取的过程,递归地根据特征的信息增益来选取信息增益较大的特征 当做决策树的节点。这样的决策树生成算法叫 ID3算法,将ID3算法中的信息增益换成信息增益比 便是C4.5 算法,这两个算法的过程都是极大似然估计的过程。为了防止过拟合,将生成的决策树进行剪枝 简化:建立损失函数 包含两部分 对训练数据的预
2016-06-20 14:35:45
908
原创 python 写爬虫
http://www.zhihu.com/question/20899988 参考这个知乎的答案用requests and bs4 轻松爬取静态页面作者:挖数链接:http://www.zhihu.com/question/20899988/answer/96904827来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。以
2016-06-13 21:51:22
316
原创 TF-IDF 原始用去 计算判断 某个词语对文章的重要性
TF-IDF 我在对新闻分类的工作中用过 找文本的关键词后来 做新闻实体共现网络的时候 又用来找新闻文本中的关键实体今天 好好把它看了下 就是TF 和 IDF 两部分乘积嘛 后期有很多参数改进嘛
2016-06-13 16:40:47
458
原创 关于基于复杂网络的数据挖掘的学习笔记
最近一直投身 复杂网络的各种问题 简单记录一下 我这一路关注的问题开始学到用聚集系数来判别垃圾短信的发送号码 我就想临摹一个 用聚集系数在微信朋友关系中 判别微商 结果是失败的 一是取不到数据 二是 微商很多就是买给熟人 他的朋友不一定不是朋友 他的聚集系数就不一定低 所以失效然后我就对聚集系数依旧念念不忘 寻找他与网络基本属性:度分布 中介性 介数 k-c
2015-12-09 21:22:52
2526
3
原创 mapreduce Wordcount输入文件在hdfs上的实例
package org.tseg.hadoop.example;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hdfs.DistributedFileSys
2015-11-23 21:02:26
471
转载 重拾 hadoop mapreduce 学习 一
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架
2015-11-23 19:16:38
339
原创 用中科院ICTCLAS2015分词器的java接口
要做中文文本的分类 自然首要步骤就是分词(切词)咯 就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后 得到如下调用ICTCLAS2015分词器的java接口的方法另附:还有一个同学写的方法 http://blog.youkuaiyun.com/blockheadls/article/details/49737599#userconsent#1、在ICT
2015-11-22 22:22:15
1305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人