- 博客(32)
- 收藏
- 关注
转载 carrot2中lingo实现总结(一)
转载自:http://hi.baidu.com/dataanalyser/blog/item/d150d3554a89bb2943a75b41.html从今天开始把carrot2中lingo的实现了解到的内容总结下,总结的不完整,有兴趣的可以单独沟通。另外lingo的论文本地有,但是不能添加附件,所以就不上传了
2012-01-07 11:08:08
1399
转载 用正则表达式去除文本中的标点符号
转载自http://blog.youkuaiyun.com/telnetor/article/details/6041323近期从事检索工作,需要相应用户的输入请求,返回结果。由于难以预料用户的输入内容,如果不加过滤处理,在检索阶段很可能抛出异常。 用户的输入可能风格迥异,最常见的可能算是夹杂各种标点符号的输入了。怎样过滤?在csdn论坛上面看到一贴,综合了一下,得到了下面的正则表达式,也
2012-01-04 14:20:20
1989
转载 mahout介绍-1
转载自:http://hi.baidu.com/liujiekkk123/blog/item/4bd8a0878269c736c65cc3e6.htmlMahout 简单使用经验mahout项目介绍推荐引擎利用特殊的信息过滤技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,
2011-12-23 13:48:42
1530
转载 mahout推荐介绍-2
转载自:http://hi.baidu.com/liujiekkk123/blog/item/d6c4541b06470fe6af5133fe.html什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周
2011-12-23 13:47:14
3457
转载 mahout推荐介绍-3
转载自:http://hi.baidu.com/liujiekkk123/blog/item/8334240938ed04386b60fbb3.html基于 Apache Mahout 实现高效的协同过滤推荐Apache Mahout 是 Apache Software Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方
2011-12-23 13:44:42
3493
转载 Ubuntu下使用SVN
1、将文件checkout到本地目录svn checkout path(path 是服务器上的目录)例如:svn checkout svn://192.168.1.1/pro/domain简写:svn co2、往版本库中添加新的文件svn addfile例如:svn add test.php(添加test.php)svn add *.ph
2011-12-21 10:02:18
544
转载 Mahout架构初探及KMeans算法分布式实现的研究
转载自:http://hi.baidu.com/%B3%CF%D5%F7id/blog/item/6863de395f2f963eb8998fc3.html1. Mahout简介Apache项目下的开源的基于hadoop分布式系统的数据挖掘工具,mahout源代码由maven项目管理工具管理。2. $MAHOUT_HOME/bin/mahout
2011-12-19 09:59:28
4204
转载 hadoop shell 命令
全文转载自http://blog.sina.com.cn/s/blog_5fbdba500100cy6f.htmlFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs的形式。 所有的的FSshell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,sch
2011-12-09 10:03:06
615
转载 hadoop 命令手册
全文转载自http://blog.sina.com.cn/s/blog_5fbdba500100cy6d.html概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法:hadoop [--config confdir] [COMMAND][GENERIC_OPTIONS] [COMMAND_OPTIONS]Ha
2011-12-09 10:01:16
544
原创 ubuntu UltraEdit 反复试用的办法
UE 在处理文档方面能力强,但是从网上下载的只是试用版30天,30天到期后到用户目录下如:/home/michzel/.idm 文件夹下面,删除uex文件夹,重新打开UE,就又可以试用30天啦!
2011-12-08 15:55:16
13255
原创 mahout lucene vector 错误
昨天mahout将索引转换为向量时总是报错,记录如下:首先,建立索引时一定要将filed设置为向量,如:Field fld = new Field(“text”, “foo”, Field.Store.NO, Field.Index.ANALYZED, Field.TermVector.YES);其次,启动hadoop,切换到MAHOUT_HOME目录,运行:/bin/ma
2011-12-08 10:34:17
1819
原创 ubuntu 批量转换文本编码命令
当前目录下批量转换文本编码:touch iconv.tmp && find . -iname "*.txt" -exec iconv -f gbk -t utf-8 '{}' -o iconv.tmp \; -exec mv iconv.tmp '{}' \;
2011-12-08 10:24:21
873
转载 java.util.regex 正则表达式
转自http://blog.youkuaiyun.com/xiazdong/article/details/6793715正则表达式主要在java.util.regex包中,有Pattern和Matcher类。Pattern类主要是正则匹配规则,Matcher是用某个正则表达式去匹配字符串。Pattern和Matcher提供的常用方法:
2011-11-11 11:38:04
609
转载 短文本分类或lda的分析(ZZ)(转载pennyliang (pennyliang),)
2008-11-16 20:21来自水木,标题我给改了下发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具
2011-07-09 10:25:26
1901
原创 ICTCLAS JNI init fail问题的修复
这是张华平博士的分词系统ICTCLAS2011 java UnsatisfiedLinkError ICTCLAS2011.ICTCLAS_Init([BI)Z2011年06月05日 星期日 上午 02:44出现的问题如:ICTCLAS_InitException in thread "main" java.lang.UnsatisfiedLinkError: ICTCLA
2011-06-30 21:26:00
6782
转载 MySQL 中文显示乱码(转帖)
最近关于中文显示乱码的贴子比较多,所以也做了个总结:可以参考一下杨涛涛版主的《各种乱码问题汇总》http://topic.youkuaiyun.com/u/20071124/08/3b7eae69-ed1d-4a77-8895-9930bf3601af.htmlMySQL字符集的原理介绍。摘录于官方文档。http://dev.mysql.com/doc/refman/5.1/zh/charset.
2011-06-30 13:00:00
497
转载 WEKA连接MySQL,Oracle,SQLServer (转帖)
1.准备Windows XPjdk-1_5_0_14weka-3-5-7.exeSQLServer2005mysql-6.0.0Oracle10.2.0.1.0Microsoft SQL Server 2005 JDBC Driver 1.2--->sqljdbc.jarMySQL Driver for JDBC--->mysql-connector-java-5.
2011-06-29 21:54:00
1626
转载 Weka访问MySql数据库报错(转帖)
在Weka中使用Experimenter想连接Mysql数据库时, 默认链接为:jdbc:idb=experiments.prp将其改为:jdbc:mysql://222.35.250.58:3306/labin_ultimate_original(Mysql主机与数据库名需要根据实际情况设置)仍然会出现错误:exception: java.sql.SQLException: No suitabl
2011-06-29 21:34:00
2275
转载 java 调用MATLAB(转帖)
1. 环境准备 a) 机器上有Eclipse 3.1和 Matlab 2007ab) 机器的环境变量设置 i. JAVA_HOME(JDK的安装位置 如C:/Program Files/Java/jdk1.5.0)l设置后,重启mat
2011-06-29 17:01:00
763
转载 weka简介和回归-----转自chinakdd
什么是数据挖掘?数据挖掘,就其核心而言,是指将大量数据转变为有实际意义的模式和规则。并且,它还可以分为两种类型:直接的和间接的。在 直接的 数据挖掘中,您会尝试预测一个特定的数据点 — 比如,以给定的一个房子的售价来预测邻近地区内的其他房子的售价。在 间接的 数据挖掘中,您会尝试创建数据组或找到现有数据内的模式 — 比如,创建 “中产阶级妇女”的人群。实际上,每次的美国人口统计都是在进
2011-06-29 09:34:00
2281
原创 tomcat+solr在windows下运行配置
在windows上运行Solr Example1. 下载压缩包apache-solr-1.2.0.zip,并解压2. 将/apache-solr-1.2.0/dist/apache-solr-1.2.0.war改名为solr.war后复制到tomcat的webapps下3. 创建solr的主目录 solr需要一个主目录来存放资料,建立文件夹f:/solr, 将apache-solr
2011-03-03 10:00:00
2121
原创 python学习笔记(二)
1.文件的保存必须以py类型;2.双击可运行文件;3.reload与import的区别:reload是重载,可用于调试;import是载入只能载入一次;4.python的编辑器,很多人推荐ulipad,还不错的5.类型为:数字,字符串,列表,字典,元组,文件等其他类型;6.字符串的操作包括:索引,分片,合并;但是字符串不可变,查找,替换只能创建新的字符串;命令dir()可显示所
2011-03-03 09:51:00
519
原创 python学习笔记(一)
1.首先学习版本的问题,现在最新版已经出到3.2,虽然说版本越新越好,但是很多教程都还是2.5版本,所以学习的时候会有很多麻烦。而且3.x有些模块并不向下兼容。 2.python的安装很简单,下载python2.5版本,windows下双击安装,然后在环境变量中设置下path路径; 3.在文件中编写代码,必须使用print语句来进行输出,因为表达式的结果不会自动反应;但在
2011-03-01 09:44:00
406
转载 ant入门
一,构建ant环境要使用ant首先要构建一个ant环境,步骤很简单:1),安装jdk,设置JAVA_HOME ,PATH ,CLASS_PATH(这些应该是看这篇文章的人应该知道的)2),下载ant 地址www.apache.org找一个你喜欢的版本,或者干脆最新的版本3),解压ant 你得到的是一个压缩包,解压缩它,并把它放在一个尽量简单的目录,例如D:/ant-1.6虽然你不一
2011-02-14 21:25:00
344
原创 我把程序简化了一下,但是索引文件夹中仍然为空
/* *michzel new java files * *Created on 2010-9-15 * *Copyright 2010 Anchora info company. all rights reserved */package LuceneTest;import org.apache.lucene.analysis.Analyzer;imp...
2010-10-08 17:00:59
164
原创 Indexperform的MyDocument类
/* *michzel new java files * *Created on 2010-9-15 * *Copyright 2010 Anchora info company. all rights reserved */package LuceneTest;import java.io.*;import java.util.StringTokenize...
2010-10-08 11:06:59
159
原创 词频 term frequency
/* *michzel new java files * *Created on 2010-10-2 * *Copyright 2010 Anchora info company. all rights reserved */package TFIDF;import java.io.IOException;import java.io.StringRea
2010-10-02 15:56:00
1501
原创 建立索引,为什么我的索引为空,请指正!
/* *michzel new java files * *Created on 2010-9-13 * *Copyright 2010 Anchora info company. all rights reserved */package LuceneTest;import java.io.File;import java.io.IOException;...
2010-10-02 15:34:39
326
原创 term frequency 词频
/* *michzel new java files * *Created on 2010-10-2 * *Copyright 2010 Anchora info company. all rights reserved */package TFIDF;import java.io.IOException;import java.io.StringRea...
2010-10-02 15:31:53
199
原创 痛苦的Lucene3.0.2
<br />开源的有十万个非常好的理由,但是有一个不好的理由:版本之间的兼容性不好。我刚接触Lucene,用的3.0.2,结果网上很多代码,还有资料都是Lucene2.4.1什么的,好多方法都废弃了,痛苦啊!
2010-09-30 09:30:00
502
原创 建立索引
/* *michzel new java files * *Created on 2010-9-15 * *Copyright 2010 Anchora info company. all rights reserved */package LuceneTest;import org.apache.lucene.analysis.Analyzer;imp
2010-09-30 09:27:00
471
原创 为什么我创建的索引总为空?郁闷
/* *michzel new java files * *Created on 2010-9-15 * *Copyright 2010 Anchora info company. all rights reserved */package LuceneTest;import java.io.File;import java.io.IOException;
2010-09-27 16:48:00
777
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人