数据挖掘
文章平均质量分 65
LarryNLPIR
专注NLP/IR/Machine Learning/Data Mining
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘—概念学习Candidate-Elimination算法的C++实现
Candidate-Elimination算法是数据挖掘中的一种概念学习算法,部分解决Find-S的不足,可以输出所有与训练样本一致的概念,同时利用概念间偏序关系来指导搜索,其伪代码描述如下Initialize Gto the set of most-general hypotheses in HInitialize Sto the set of most-specific hypoth原创 2012-02-27 22:09:30 · 3371 阅读 · 0 评论 -
数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(下)
本文接数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上).(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )本文要点如下:介绍基于LSI(隐性语义索引)中SVD分解做特征降维的方法介原创 2012-04-17 16:37:08 · 14647 阅读 · 14 评论 -
数据挖掘-关联分析频繁模式挖掘Apriori、FP-Growth及Eclat算法的JAVA及C++实现
(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )一、Apriori算法 Apriori是非常经典的关联分析频繁模式挖掘算法,其思想简明,实现方便,只是效率很低,可以作为频繁模式挖掘的入门算法。其主要特点是 1、k-1项集连接规律:原创 2012-04-24 19:22:00 · 40535 阅读 · 18 评论 -
ECIR 2016 Paper Modelling User Interest for Zero-query Ranking
中文简介:本文对智能个人助理(如Google Now,Microsoft Cortana)中的信息卡片排序进行了研究,从user modeling的角度提出了三组排序特征:implicit feedback features, entity based user interests features以及user demographic features. 其中entity features的提取用原创 2016-07-03 07:05:48 · 5230 阅读 · 0 评论 -
NAACL 2013 Paper Mining User Relations from Online Discussions using Sentiment Analysis and PMF
中文简介:本文对如何基于情感分析和概率矩阵分解从网络论坛讨论中挖掘用户关系进行了深入研究。论文出处:NAACL'13.英文摘要: Advances in sentiment analysis have enabled extraction of user relations implied in online textual exchanges such as forum posts. Howev原创 2015-12-23 23:12:47 · 3162 阅读 · 0 评论 -
COLING 2014 Paper Generating Supplementary Travel Guides from Social Media
中文简介:想知道如何基于雅虎问答社区帖生成旅行指南吗?本文介绍了相关统计模型和技术。论文出处:COLING’14英文摘要: In this paper we study how to summarize travel-related information in forum threads to generate supplementary travel guides. Such summarie原创 2015-12-23 22:55:13 · 3186 阅读 · 0 评论 -
Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基于XGBoost/Scikit-learn的实现
1. 概要Gradient Tree Boosting (别名 GBM, GBRT, GBDT, MART)是一类很常用的集成学习算法,在KDD Cup, Kaggle组织的很多数据挖掘竞赛中多次表现出在分类和回归任务上面最好的performance。同时在2010年Yahoo Learning to Rank Challenge中, 夺得冠军的LambdaMART算法也属于这一类算法。因此Tree Boosting算法和深度学习算法DNN/CNN/RNN等等一样在工业界和学术界中得到了非常广泛的应用。原创 2017-03-16 12:57:49 · 17712 阅读 · 3 评论 -
CIKM 2013 Paper CQARank: Jointly Model Topics and Expertise in Community Question Answering
中文简介: 本文对如何在问答社区对用户主题兴趣及专业度建模分析进行了研究,并且提出了针对此问题的统计图模型Topics Expertise Model.论文出处:CIKM‘13.英文摘要: Community Question Answering (CQA) websites, where people share expertise on open platforms, have become原创 2015-12-23 22:48:04 · 4181 阅读 · 0 评论 -
CIKM 2013 Paper Modeling interaction features for debate side clustering
中文简介:本文对如何对网上论坛讨论中用户交互关系进行统计建模分析进行了研究。论文出处:CIKM‘13.英文摘要: Online discussion forums are popular social media platforms for users to express their opinions and discuss controversial issues with each othe原创 2015-12-23 23:19:03 · 4110 阅读 · 0 评论 -
ECIR 2016 Paper Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval
中文简介:本文对non-factoid 问题的答案句子检索进行了研究,基于learning to ranking的框架,在传统文本匹配特征的基础上提出了给予语义匹配和上下文信息的特征,并且证明了这些特征对于答案句子检索的有效性。本文使用TREC GOV2数据集,并且开源了code和标注数据集,下载链接参见论文脚注。论文出处:ECIR'16.英文摘要: Retrieving finer graine原创 2016-07-03 06:56:46 · 5245 阅读 · 0 评论 -
ICDM 2014 Paper ShellMiner Mining Organizational Phrases in Argumentative Texts in Social Media
中文简介: 本文提出了概率生成模型 Shell Topic Model (STM)对社交论坛文本中的组织性短语(Organizational Phrases)和主题词(topical contents)进行建模分析,主要的应用有组织性短语的挖掘和文档建模。论文出处:ICDM‘14.英文摘要:Threaded debate forums have become one of the major so原创 2016-07-03 07:18:49 · 5729 阅读 · 0 评论 -
SIGIR 2017 Paper Characterizing and Predicting Enterprise Email Reply Behavior
中文简介:本文对企业邮件系统中的用户行为进行了建模分析,首先分析了影响用户邮件回复行为的几类因素,然后基于分析结果建立了预测用户邮件回复行为和邮件回复时间的机器学习模型。基于Avocado邮件数据的实验结果表明,本文提出的特征和模型对于用户邮件回复行为的预测准确度大幅度超过了以往的基准方法。论文出处:SIGIR'17英文摘要:Email is still among the most popula原创 2017-08-28 23:17:46 · 2397 阅读 · 0 评论 -
深度文本匹配开源工具(MatchZoo)
博主导言:苦于Deep Learning的baseline太多实现困难?苦于没有好的基于深度学习处理NLP, IR, QA任务的开源工具?苦于没有发布自己研究的深度文本匹配模型的交流平台?强烈推荐MatchZoo,用深度学习做自然语言处理,信息检索,智能问答等任务的小伙伴看过来。MatchZoo提供了基准数据集(TREC MQ系列数据、WiKiQA数据等)进行开发与测试,整合了当前最流行的深度文本转载 2017-12-10 23:32:04 · 16617 阅读 · 5 评论 -
数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现(上)
(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )本文要点如下:对newsgroup文档集进行预处理,按照DF法及SVD分解法抽取特征词,实现降维实现了K-Means,MBSAS,DBSCAN三种聚类算法用weka工具进行newsgroup文档聚类计算各种原创 2012-04-18 00:02:02 · 26242 阅读 · 37 评论 -
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)
(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )本文主要内容如下:对newsgroup文档集进行预处理,提取出30095 个特征词计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用用JAVA实现了KNN算法及朴素贝叶斯算法的new原创 2012-03-27 23:06:30 · 38241 阅读 · 47 评论 -
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(下)
本文接 数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上) (update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现,下面我们来看看如何原创 2012-03-27 23:47:32 · 20770 阅读 · 46 评论 -
数据挖掘—概念空间挖掘FindS算法的C++实现
该算法是概念空间挖掘最简单的算法,只考虑了正实例,不断做泛化,实际上求得了一个最特化边界概念挖掘需求C++实现#include #include using namespace std;#define MAXTRAIN 4#define MAXLEN 7int main(){ int i, j; string state[MAXTRAIN][MAXLEN];原创 2012-03-03 11:08:39 · 3096 阅读 · 0 评论 -
文本分类入门
最近要做文本分类相关的课程project,因此上网找了一下文本分类的资料,下面这个感觉比较通俗易懂,收录在这里。来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的转载 2012-03-04 02:08:57 · 9624 阅读 · 13 评论 -
数据挖掘-基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估
本文接《基于机器学习的SNS隐私保护策略推荐向导的设计与实现》,详细解析基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估结果,本文完整C++程序及JAVA工程下载链接见点击打开链接,对数据挖掘和SNS感兴趣的朋友可以下载跑一下,有任何问题欢迎交流:)基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估1 SNS朋友数据预处理与统计要实现对朋友访问原创 2012-06-03 22:45:25 · 5702 阅读 · 6 评论 -
基于机器学习的SNS隐私保护策略推荐向导的设计与实现
引言:这篇论文是我最近读到的将机器学习/数据挖掘算法引入到SNS网络隐私保护领域中的一篇经典论文,感觉模型比较有新意,实现了自动化的用户隐私设置分析,用户只需要对很少朋友根据自己的隐私偏好打上访问控制标签,分类器就可以对其他大部分朋友的访问权限做自动分类,并且达到了很高的准确率,大大减轻了SNS用户手动隐私设置的负担。该论文发表于WWW10'及CCS10‘,我将全文翻译并加入了自己的理解性注释,发翻译 2012-06-03 22:09:11 · 5489 阅读 · 0 评论 -
WEKA使用教程(经典教程转载)
WEKA使用教程目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也转载 2012-05-22 01:16:59 · 242573 阅读 · 18 评论 -
SVM算法入门
课程文本分类project SVM算法入门转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。转载 2012-03-04 02:13:36 · 33595 阅读 · 26 评论 -
Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
1、问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多DM、NLP相关的paper在做这方面的工作。基本的思路是:(1)从sentence的parse tree(比如stanford parser)中选取候选target结点和候选opinion结点,然后对所有的候选tar原创 2012-11-06 13:03:06 · 11638 阅读 · 3 评论 -
2012-2013年DM IR NLP ML相关top会议截稿日期
2012-2013年DM IR NLP ML相关top会议截稿日期,先收录到这里,方便随时查阅如果有遗漏的重要会议,欢迎网友补充,随时更新PAKDD 20132012-10-07 submission deadlineSDM20132012-10-08 submission deadlineECIR20132012-10-01 Abstract 2012-10-08 submission dead原创 2012-09-26 15:34:27 · 5216 阅读 · 0 评论 -
3行程序搞定SVM分类-用JAVA程序调用LibSVM API 最简单的示例
最近用LibSVM做分类实验,发现网上的资料大都是关于SVM基本原理和怎么用终端命令行使用svm-train,svm-predict等几个程序,这些其实在README文件中已经讲得很清楚了,Readme里面几乎包含了所有可以帮助你灵活使用LibSVM的信息,可是很多人都不怎么看。这里给出用JAVA调用LibSVM API最简单的示例,用JAVA进行SVM分类只需要几行程序就搞定了,前提是你已经准备原创 2012-10-05 15:09:34 · 32049 阅读 · 75 评论 -
概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类总结(bibliography)第五原创 2013-01-28 17:41:09 · 44504 阅读 · 104 评论 -
机器学习-Matlab 编程常用命令速览(Ng-ML-class Octave/Matlab Tutorial)
机器学习- Matlab 编程常用命令速览--总结自Ng-ML-class Octave/Matlab Tutorial CourseraA、Basic operations and Moving data around1 在命令行模式用shift + 回车即可附加下一行输出2 length命令apply到矩阵时返回较高的一维的dimension3 help + 命令是显示命令的简要帮助信息原创 2013-05-27 14:41:25 · 9336 阅读 · 1 评论 -
数据挖掘-决策树ID3分类算法的C++实现
数据挖掘课上面老师介绍了下决策树ID3算法,我抽空余时间把这个算法用C++实现了一遍。决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是Pi为子集合中不同性(而二元分类即正样例和负样原创 2012-03-05 19:04:10 · 63111 阅读 · 94 评论 -
Newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ
Newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现系列5篇博文自发表半年多来,累计浏览量近万次,Eclipse工程下载累计近千次,受到了很多朋友的关注,如果能给各位数据挖掘入门学习带来一些帮助本人感到很高兴。有很多朋友阅读代码成功运行工程输出了博文中展示的文本分类及聚类结果,但是有的朋友遇到编译失败或者配置路径错误等问题,半年来我也收到很多站内信和评论询问这原创 2012-12-28 16:57:05 · 22572 阅读 · 4 评论 -
论文发表-关于深度学习在问答系统和对话系统方面的应用研究-2018到2019年
作者导言:以下是我2018-2019年发表的关于深度学习在问答系统和对话系统的应用的paper,感兴趣的读者可以查阅。大家如果有关于这些paper的问题,欢迎发邮件到我的email (yangliuyx@gmail.com)咨询讨论,我会尽量回复。本来想对每一篇论文做细致的介绍,但是发现优快云最近的博客编辑器不好用,所以先把近两年来发表的论文贴在这儿,以后有时间我会再更新,添加更多细节文字介绍。...原创 2019-06-08 01:32:19 · 3063 阅读 · 2 评论
分享