- 博客(67)
- 收藏
- 关注
原创 Recommender system based on hadoop
[quote]hadoop jar mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob -Dmapred.input.dir=input -Dmapred.output.dir=result --recommenderClassName org.apache.mahout.cf.ta...
2011-05-01 22:24:13
210
原创 hadoop 0.21.0 伪分布式环境搭建(mac雪豹系统)
1.下载hadoop包,[url]http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz[/url]2.解压 tar xzf hadoop-0.21.0.tar.gz3.进入hadoop解压后得文件夹,编辑hadoop-env.sh 指定JAVA_HOME变量,比如[cod...
2011-04-09 13:31:51
190
cpp链接库设置
在linux下1.在/etc/ld.so.conf中指定连接加载的目录2.运行ldcoonf3.使用ldd 查看 目标文件的加载路径在macbook下:otool -L
2010-03-26 16:36:07
225
原创 macbook 使用感受
太爽了.支付宝可以用MSN可以用QQ可以用开发得心应手.不论是JAVA,PYTHON,C++,方便非常.最赞的是屏幕,比我用过的所用THINKPAD都好[url]htt://www.freechinatrip.com/[/url]...
2010-01-21 11:39:04
189
原创 nutchbase=nutch+hbase
当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。它的优点很明显:架构合理. 开发者是这样说的,引用自jira[url]http://issues.apache.org/jira/browse/NUTCH-650[/url]A) Why in...
2010-01-14 10:57:45
167
原创 hbase 0.20 client编程
[code="java"]import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.Get;import org.apa...
2010-01-06 17:38:25
122
原创 hbase shell操作
[code="java"]bin/hbase shellcreate 'url','sohu'disable 'url' alter 'url', {NAME => '163'} enable 'url' put 'url','163','163:lady','lady.163.com' scan 'url'[/code]
2010-01-06 14:41:50
123
原创 部署单机hadoop0.20和hbase0.20测试环境
从官方网站上下载对应的版本,解压到hbase和hadoop目录下.在hadoop下面配置hadoop-env.sh配置JAVA_HOME配置conf/core-site.xml[code="java"]fs.default.namehdfs://localhost:9000[/code]配置conf/hdfs-site.xml[code="jav...
2010-01-05 15:56:56
119
T60安装苹果ideneb 10.5.7过程记录
1.准备一张ideneb 10.5.7的安装盘,我是在淘宝上买的,花了13块钱。2.T60 195143U一台,集成GMA950显卡3.像光驱安装windows一样。不过要记得抹盘,选择相应的驱动,声卡,显卡,无线(3945不能用,我换了一个无线网卡),语言包。4.完美成功。...
2009-12-18 13:13:36
351
利用neko抽取超链接及锚文本
[code="java"]import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.StringReader;import java.net.URL;import java.nio.CharBuffer;import j...
2009-12-06 20:48:20
217
使用CharBuffer和 InputStreamReader读取各种编码的网页
只要指明编码格式,就能正确的读取。[code="java"]import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.nio.CharBuffer;public class Pa...
2009-12-03 15:38:18
213
利用lucene,nekohtml,为rss新闻建立索引
[code="java"]import java.io.BufferedReader;import java.io.File;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util...
2009-12-02 12:05:15
138
使用python调用计算所分词系统ICTCLAS30
代码很简单,但我自己摸索了一下午[code="java"]#coding:gb2312from ctypes import *dll=cdll.LoadLibrary("ICTCLAS30.dll")dll.ICTCLAS_Init(c_char_p("."))lpText = u"计算所汉语词法分析系统ICTCLAS调用测试"bSuccess = dll.IC...
2009-11-21 17:47:25
246
mysql跨表更新
update softcrawl.soft_download,softcrawl.softinfo set softcrawl.soft_download.source=softcrawl.softinfo.source where softcrawl.soft_download.gameid=softcrawl.softinfo.id关键是在update里声明要更新的多个表...
2009-11-16 12:50:03
131
非负矩阵分解
[code="java"]from numpy import *from random import *def difcost(a,b): dif=0 for i in range(shape(a)[0]): for j in range(shape(a)[1]): dif+=pow(a[i,j]-b[i,j],2) ...
2009-11-08 22:18:50
156
使用java转码
[code="java"]BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("c://summary.cvs"),"utf8")); OutputStreamWriter writer = new OutputStreamWriter(new FileOutputSt...
2009-10-27 17:39:00
108
使用lxml解析xml
[code="java"]#coding:gb2312import osimport lxmlimport lxml.etree,StringIOimport lxml.html as x if __name__ == '__main__': filelist = os.listdir("/backup/ksearch/query/videos/youku_...
2009-08-21 17:21:40
306
Java中汉字范围
java内部使用unicode编码,汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字。[code="java"]public static void main(String[] args) { StringBuilder sb = new StringBuilder(); for(char c='\u4E00';...
2009-08-12 10:35:47
17338
python版libsvm在windows下安装使用
使用的libsvm版本是http://www.csie.ntu.edu.tw/~cjlin/libsvm/libsvm-2.89.zippython版本是2.6解压缩libsvm后,将libsvm-2.89\windows\python目录下的svmc.pyd文件复制到C:\Python26\DLLs;将libsvm-2.89\python目录下的svm.py放到C:\Python26...
2009-08-08 20:34:41
178
windows下利用python拨号电信3G并获得IP地址
[code="java"]import win32rasimport osif __name__ == '__main__': params = ('USB-KEY DIAL', '#777','','ctnet@mycdma.cn', 'vnet.mobi','') fs, ret = win32ras.Dial(None, None, params, None...
2009-07-17 22:28:02
220
python 网页抓取经验
一定要设置好user-agnet 和accept[code="java"]#coding:utf-8'''Created on 2009-7-15@author: Administrator'''import urllib2import newhttplibimport lxml.html as x def getmusic(num,soc=Non...
2009-07-16 20:19:07
114
python 网页抓取(使用代理服务器),解析一例
[code="java"]#coding:utf-8'''Created on 2009-7-15@author: Administrator'''import urllib2import newhttplibimport lxml.html as x def getmusic(num,soc=None): s=num.split(':')...
2009-07-15 16:27:47
80
pycurl做https链接,免于校验的设置
[quote]curl_handle.setopt(pycurl.SSL_VERIFYHOST,0)curl_handle.setopt(pycurl.SSL_VERIFYPEER,0)[/quote]
2009-07-07 16:50:49
624
利用PIL做简单的图片数字识别
[code="java"]#coding:gbk'''Created on 2009-7-7@author: yuhai'''import StringIOimport Image,osimport editdistdic={} def readimg(imgpath): buffer=StringIO.StringIO()...
2009-07-07 16:29:50
275
pywin32编程实例
这里面技巧太多,1.使用win32的dll必须使用windll.LoadLibrary2.获得一个字符串的值c_char_p(addr).value3.wap拨号4.使用win32ras 拨号5. socket.bind[code="java"]import pycurl import StringIO import socketimport win32...
2009-07-02 16:36:58
744
原创 ubuntu移除图形界面的命令
A short command on how to change Ubuntu so that it will only start in text mode, no X11 (graphical) mode. The following removes the graphical greeter from the runlevels :sudo update-rc.d -f gdm re...
2009-06-27 13:10:33
940
jsp 使用jdbc一例
[code="java"]=0) cat="post"; if(cat.indexOf("新闻")>=0) cat="news"; if(cat.indexOf("项目申报")>=0) cat="project"; sb.append(cat);
2009-06-26 13:48:53
149
MapRunnable设计一例
[code="java"]package org.apache.nutch.fetcher;import java.io.IOException;import java.util.HashSet;import java.util.Iterator;import org.apache.commons.httpclient.DefaultHttpMethodRetryHan...
2009-06-17 17:21:19
165
使用PIL和StringIO做图片resize
StringIO就是把内存里的数据封装成文件句柄[code="java"]import os, sysimport Imageimport StringIOsize = 128, 128outfile = 'D:/wallcoo-3.jpg'try: #im = Image.open('D:/wallcoo.jpg') fp=open...
2009-04-28 17:00:18
473
python中的正则表达式应用
[code="java"] f=open('wuqu.html','r') content=f.read() m=re.findall('[\w|\W]*?', content) print len(m) if m is None:return for i in range(1,len(m)): c=m[i] d=re...
2009-04-08 10:56:52
105
Tkinter图形界面设计
[code="java"]#coding=gbkfrom Tkinter import *import pycurlimport sys, re, md5, os, time, commandsimport pycurlimport cStringIO as _StringIOimport sysimport shutil, urllib, urllib2i...
2009-03-29 19:01:19
268
原创 nutch搏斗之一
问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of...
2009-03-26 19:01:02
159
设计python版的爬虫
准备工作安装Python2.5安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:Content=Content.dec...
2009-03-26 10:49:22
118
原创 eclipse profile tool
http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.htmlEclipse Test and Performance Tools Platform
2009-03-26 10:44:01
85
python抓取
准备工作可以使用Python2.5,推荐使用2.4,因为需要兼顾wkfs的接口。安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:...
2009-03-20 09:59:49
171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人