
数据挖掘
fanzitao
数据挖掘/Java/hadoop/python/shell
展开
-
elasticsearch常见http请求示例
创建索引curl -XPUT -H 'Content-Type: application/json' 'http://118.31.76.208:9200/test_index' -d '{ "settings":{ "index":{ "number_of_shards":3, "number_of_r...原创 2020-02-05 14:44:53 · 1531 阅读 · 0 评论 -
Elasticsearch嵌套对象(nested)的使用
假设我们有一份用户信息,用户信息有一个字段存储用户的社交网络帐号信息。我们知道现在每个人都会有很多SNS账户,例如:QQ,微信,微博,知乎之类。具体到每个SNS帐号,有可以包含很多信息,例如: snsType int #标识sns类型 snsName string #该sns的名称,如QQ,微信 nickname string #用户昵称 fansCnt long...原创 2020-02-05 14:34:42 · 5117 阅读 · 0 评论 -
以求医为例谈搜索引擎排序算法的基础原理
以求医为例谈搜索引擎排序算法的基础原理 (2011-1-27 08:01:02)标签: 分类:搜索技术 我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。 为了说明这个问题,我们来研究一个比搜索引擎更加古老的话题:求医。比如,如果我牙疼,应该去看怎样的医生呢转载 2012-10-15 15:46:37 · 1101 阅读 · 0 评论 -
搜索背后的奥秘——浅谈语义主题计算
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词:主题转载 2012-10-15 15:34:41 · 874 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来转载 2012-09-11 21:20:09 · 1128 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多转载 2012-08-31 20:36:20 · 1195 阅读 · 0 评论 -
Java调用Weka API分类实例
转自:http://chenwq.iteye.com/blog/1308834package cn.edu.xmu.bdm.wekainjava.test; /** * desc:试试Weka的决策树类 * J48Test * @version 1.0 2011/12/13 * @author chenwq * */ im转载 2012-04-17 20:06:05 · 16650 阅读 · 4 评论 -
利用Weka API进行线性回归
package LinearRegression;import weka.classifiers.Evaluation;import weka.classifiers.functions.LinearRegression;import weka.core.Instance;import weka.core.Instances;import weka.core.converters.Co原创 2012-04-18 21:51:15 · 6456 阅读 · 3 评论