
自然语言处理
文章平均质量分 50
vincent2610
晚来天欲雪,能饮一杯无
展开
-
利用word2vec对关键词进行聚类
来自http://blog.youkuaiyun.com/jj12345jj198999/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用km转载 2014-09-05 10:06:13 · 832 阅读 · 0 评论 -
Stanford Parser 详细使用参考
来自http://blog.youkuaiyun.com/dushenzhi/article/details/81949871、到斯坦福官方网站http://nlp.stanford.edu/software/lex-parser.shtml下载软件包,解压。2、在eclipse中新建一个java project,把解压得到根目录下的stanford-parser.jar和stanford-par转载 2014-01-04 10:25:56 · 2658 阅读 · 0 评论 -
利用Stanford Parser进行中文行为抽取
转自twenz利用Stanford Parser进行中文行为抽取(Action mining)问题所谓的行为抽取就是从开源文本中获取关于给定的某个人/组织的行为,主要包括主语、谓语和宾语。其中主语是给定的一些词表示了需要抽取的信息对象(人、组织或团体)。谓语和宾语则表示了行为。例如,我们要抽取关于“塔利班”的行为,则给定句子“塔利班制造了这起爆炸。”的抽取结果为“塔转载 2014-01-04 20:30:51 · 1102 阅读 · 0 评论 -
NLP开源软件
来自http://www.xuebuyuan.com/1321828.htmlNLP开源软件一、分词1、 ICTCLAShttp://www.ictclas.org/包含分词、词性标注功能, C++编写,提供Java借口,业界比较出名。2、 Ansj中文分词http://www.ansj.org/ 分词 词性等 Jav转载 2014-01-13 10:27:27 · 1280 阅读 · 0 评论 -
自然语言处理的有关的链接
来自http://www.zhizhihu.com/html/y2011/3062.html自然语言处理的有关的链接0、强大的哈工大的Ltp: Language Technology Platform (下载源代码)http://ir.hit.edu.cn/ltp/1.the Association for Computational Lin转载 2014-01-17 10:19:28 · 1420 阅读 · 0 评论 -
搜索背后的奥秘——浅谈语义主题计算
来自http://stblog.baidu-tech.com/?p=1190摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义转载 2014-02-27 13:30:50 · 621 阅读 · 0 评论 -
LR(1) 分析例子
单元目录 第六单元~LR分析法 6.4 LR(1) 分析 本节介绍比SLR(1)功能更强的LR(1)分析法。 例如下列文法G′为: (0) S′→S (1) S→aAd (2) S→bAc (3) S→aec转载 2014-04-24 09:30:08 · 27933 阅读 · 1 评论 -
LR(0)分析例子
单元目录 第六单元~LR分析法 6.2 LR(0) 分析 上一页 | 下一页 | 第一页 按上述方法建立识别活前缀的 DFA 结果与 7.8 图相同 构造上例文法的 LR(0) 分析表见 P136 表 7.3 所入串 bccd# 的 LR转载 2014-04-21 17:09:11 · 14588 阅读 · 2 评论 -
shell之文本过滤(awk)
如果要格式化报文或从一个大的文本文件中抽取数据包,那么awk可以完成这些任务。为了获取所需信息,文本必须格式化,也就是说要使用域分隔符来划分抽取域,分隔符可以使任意字符。awk语言的最基本功能是在文件或字符串中基于指定规格浏览和抽取信息。awk抽取信息后,才能进行其他文本操作。awk脚本通常用来格式化文本文件中的信息。1.调用awk①命令行的方式:[python]转载 2014-09-09 11:14:27 · 621 阅读 · 0 评论 -
采用Stanford Parser进行中文语法解析
转自http://blog.youkuaiyun.com/cuixianpeng/article/details/16864785 Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具,支持中文的语法分析,当前最新的版本为3.3.0,下载地址为:http://nlp.stanford.edu/software/lex-parser.shtml。下载后解转载 2014-01-04 20:28:51 · 2215 阅读 · 0 评论 -
使用ICTCLAS JAVA版(ictclas4j)进行中文分词
来自http://emily2ly.iteye.com/blog/742870 和 http://blog.youkuaiyun.com/luojinping/article/details/8788743一、ICTCLAS的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computi转载 2014-01-05 21:43:10 · 1166 阅读 · 0 评论 -
stanford parser 中文句法分析
来自http://blog.youkuaiyun.com/boy178564309/article/details/12418691为了进行中文句法分析,使用了stanford parser.开始时,一头茫然。搜索网上资源也有很多异常,勉强处理了下,现将可以运行的代码粘贴如下,希望对于用到的人有所帮助:[java] view plaincopyimport转载 2014-01-05 22:26:48 · 2776 阅读 · 0 评论 -
一些实用的语义角色标注(SRL)工具使用方法
不懂SRL的自己去扫盲吧,简言之就是predict-argument分析。找了一些工具,其中暂时调通两个1. swirlhttp://sourceforge.net/projects/swirl-parser/,可以从这下载,本工具里readme介绍较详细,主要是注意有多种输入格式。带有名实体标注的可能效果比较好,什么都没有的效果比较差一点,下面就简单说一下什么都没有的输入转载 2014-01-13 10:30:49 · 7043 阅读 · 0 评论 -
Python下安装Crab推荐系统库
利用Python做推荐系统,可以调用Crab库,里面实现了常见的推荐算法,比如user-based和item-based的协同过滤算法。由于官网介绍不清楚,所以在此记录下自己的安装步骤:1. 从git直接下载代码可以直接下载zip,或用git clone2. 配置C++进入代码根目录,即setup.py文件所在目录,创建setup.cfg文件。内容如下:[build_ext]原创 2016-09-12 22:57:51 · 2651 阅读 · 0 评论