
Data Mining/Machine Learning
faith默默
这个作者很懒,什么都没留下…
展开
-
分词工具
中文分词工具可以使用张华平博士的NLPIR2013http://ictclas.nlpir.org/ 喜欢用Python 的童鞋也可以使用结巴分词https://github.com/fxsjy/jieba。原创 2015-01-26 17:17:34 · 623 阅读 · 0 评论 -
lapack参考网址
lapack原创 2015-03-31 18:40:53 · 771 阅读 · 0 评论 -
用R進行中文 text Mining
用R進行中文 text Mining转载 2015-03-13 14:16:45 · 2605 阅读 · 0 评论 -
学数据分析与数据挖掘的推介书单
各位想学数据分析与数据挖掘却不知道怎么着手学习的人有福啦!本文选自一个机器学习博士研究生的推介书单,大家可以按照自己的水平,一步步学习啦~~~入门读物: 深入浅出数据分析 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了 R 是大加分。难易程度:非常易。啤酒与尿布 通过案例来说事情,而且是最经典的例子。难易程度:非常易。数据之美 一本介绍性的书籍,每章都转载 2015-01-04 13:32:33 · 927 阅读 · 0 评论 -
机器学习等一些有用的网站
Deep Learning(深度学习)ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的转载 2014-09-22 13:15:25 · 1743 阅读 · 1 评论 -
数据挖掘10大算法的思维导图
转载 2014-09-22 15:14:22 · 1657 阅读 · 0 评论 -
基于lucene实现自己的推荐引擎
采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法,推荐引擎常用的Content-Based推荐算法及协同过滤算法(Item-Based 、User-based)在电子商务推荐系统入门v2.0 、电子商务推荐系统入门基础 中已经有所阐述。但从实际应用来看,对于大部分中小型企业来说,要在电子商务系统完整采用以上算法有很大的难度。1、常用推荐引擎算法问题1转载 2014-12-05 15:04:23 · 752 阅读 · 0 评论 -
推荐算法 开源
推荐转载 2015-03-31 18:09:07 · 1514 阅读 · 0 评论 -
R语言提供的数学规划的算法包
数学规划原创 2015-04-23 18:02:39 · 1945 阅读 · 0 评论 -
一分析建模题Amazon.com - Employee Access Challenge
题目: https://www.kaggle.com/c/amazon-employee-access-challenge/data源码: https://github.com/diefimov/amazon_employee_access_2013原创 2015-06-03 17:12:01 · 1846 阅读 · 0 评论 -
word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
因项目需要,对目前比较流行的几个分词器进行了对比,ansj_seg是最美好的一个分词器,智能、强悍,对索引和最大颗粒分割都照顾得很到位,词库的树形读取也堪称经典;如果搜索只追求绝对准确度不考虑搜索结果最大化,jcseg效果还是很好的;如果只做站内搜索,不是海量互联网搜索引擎,可以考虑使用IKanalyzer,鼎鼎大名的知乎网用的也是IKanalyzer分词器;如果做推荐做分类可能会使用jcseg,毕原创 2016-06-29 18:07:59 · 8619 阅读 · 0 评论 -
Caffe深度学习框架作者贾扬清online内容分享I
Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的 贾扬清,目前在Google工作。本文是根据机器学习研究会组织的online分享的交流内容,简单的整理了一下。转载 2016-07-20 18:24:26 · 933 阅读 · 0 评论 -
Caffe深度学习框架作者贾扬清online内容分享II
caffe算法与结构转载 2016-07-20 18:26:44 · 1664 阅读 · 0 评论 -
Caffe深度学习框架作者贾扬清online内容分享III
2.3 模型训练与调参转载 2016-07-20 18:30:43 · 647 阅读 · 0 评论 -
文本分词中词语词性标注说明
目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记原创 2016-07-18 16:09:12 · 1911 阅读 · 0 评论 -
R语言进行中文分词和聚类
目标:对大约6w条微博进行分类转载 2016-06-23 17:05:24 · 5350 阅读 · 5 评论 -
中文分词开源软件
链接:http://www.oschina.net/project/tag/264/segment 开源中国社区1、IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算转载 2015-02-06 16:00:37 · 1032 阅读 · 0 评论 -
数据挖掘的一些课程
1、Information Retrieval and WebSearch信息检索与Web搜索,信息检索是指从大规模数据集合中搜索满足我们需求的信息(通常是非格式化数据,如文本); commoncrawl项目,commoncrawl是EUplanetData项目的产物,里面还有很多对webtables或半结构化数据解析的结果,或带RDFa,microformats等语义标注的网页转载 2014-12-08 14:22:03 · 2009 阅读 · 0 评论 -
TensorFlow安装出错
TensorFlow基本上是按照官网中文教程安装 http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.html原创 2016-09-23 16:48:11 · 2539 阅读 · 0 评论