- 博客(67)
- 收藏
- 关注
原创 Recommender system based on hadoop
[quote]hadoop jar mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob -Dmapred.input.dir=input -Dmapred.output.dir=result --recommenderClassName org.apache.mahout.cf.ta...
2011-05-01 22:24:13
224
原创 hadoop 0.21.0 伪分布式环境搭建(mac雪豹系统)
1.下载hadoop包,[url]http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz[/url] 2.解压 tar xzf hadoop-0.21.0.tar.gz 3.进入hadoop解压后得文件夹,编辑hadoop-env.sh 指定JAVA_HOME变量,比如 [cod...
2011-04-09 13:31:51
195
cpp链接库设置
在linux下 1.在/etc/ld.so.conf中指定连接加载的目录 2.运行ldcoonf 3.使用ldd 查看 目标文件的加载路径 在macbook下: otool -L
2010-03-26 16:36:07
232
原创 macbook 使用感受
太爽了. 支付宝可以用 MSN可以用 QQ可以用 开发得心应手. 不论是JAVA,PYTHON,C++,方便非常. 最赞的是屏幕,比我用过的所用THINKPAD都好 [url]htt://www.freechinatrip.com/[/url]...
2010-01-21 11:39:04
198
原创 nutchbase=nutch+hbase
当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。 它的优点很明显:架构合理. 开发者是这样说的,引用自jira [url]http://issues.apache.org/jira/browse/NUTCH-650[/url] A) Why in...
2010-01-14 10:57:45
170
原创 hbase 0.20 client编程
[code="java"] import java.io.IOException; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.client.Get; import org.apa...
2010-01-06 17:38:25
128
原创 hbase shell操作
[code="java"] bin/hbase shell create 'url','sohu' disable 'url' alter 'url', {NAME => '163'} enable 'url' put 'url','163','163:lady','lady.163.com' scan 'url' [/code]
2010-01-06 14:41:50
125
原创 部署单机hadoop0.20和hbase0.20测试环境
从官方网站上下载对应的版本,解压到hbase和hadoop目录下. 在hadoop下面 配置hadoop-env.sh配置JAVA_HOME 配置conf/core-site.xml [code="java"] fs.default.name hdfs://localhost:9000 [/code] 配置conf/hdfs-site.xml [code="jav...
2010-01-05 15:56:56
125
T60安装苹果ideneb 10.5.7过程记录
1.准备一张ideneb 10.5.7的安装盘,我是在淘宝上买的,花了13块钱。 2.T60 195143U一台,集成GMA950显卡 3.像光驱安装windows一样。不过要记得抹盘,选择相应的驱动,声卡,显卡,无线(3945不能用,我换了一个无线网卡),语言包。 4.完美成功。...
2009-12-18 13:13:36
359
利用neko抽取超链接及锚文本
[code="java"] import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import java.net.URL; import java.nio.CharBuffer; import j...
2009-12-06 20:48:20
220
使用CharBuffer和 InputStreamReader读取各种编码的网页
只要指明编码格式,就能正确的读取。 [code="java"] import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.nio.CharBuffer; public class Pa...
2009-12-03 15:38:18
223
利用lucene,nekohtml,为rss新闻建立索引
[code="java"] import java.io.BufferedReader; import java.io.File; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util...
2009-12-02 12:05:15
142
使用python调用计算所分词系统ICTCLAS30
代码很简单,但我自己摸索了一下午 [code="java"] #coding:gb2312 from ctypes import * dll=cdll.LoadLibrary("ICTCLAS30.dll") dll.ICTCLAS_Init(c_char_p(".")) lpText = u"计算所汉语词法分析系统ICTCLAS调用测试" bSuccess = dll.IC...
2009-11-21 17:47:25
254
mysql跨表更新
update softcrawl.soft_download,softcrawl.softinfo set softcrawl.soft_download.source=softcrawl.softinfo.source where softcrawl.soft_download.gameid=softcrawl.softinfo.id 关键是在update里声明要更新的多个表...
2009-11-16 12:50:03
136
非负矩阵分解
[code="java"] from numpy import * from random import * def difcost(a,b): dif=0 for i in range(shape(a)[0]): for j in range(shape(a)[1]): dif+=pow(a[i,j]-b[i,j],2) ...
2009-11-08 22:18:50
161
使用java转码
[code="java"] BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("c://summary.cvs"),"utf8")); OutputStreamWriter writer = new OutputStreamWriter(new FileOutputSt...
2009-10-27 17:39:00
111
使用lxml解析xml
[code="java"] #coding:gb2312 import os import lxml import lxml.etree,StringIO import lxml.html as x if __name__ == '__main__': filelist = os.listdir("/backup/ksearch/query/videos/youku_...
2009-08-21 17:21:40
316
Java中汉字范围
java内部使用unicode编码,汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字。 [code="java"] public static void main(String[] args) { StringBuilder sb = new StringBuilder(); for(char c='\u4E00';...
2009-08-12 10:35:47
17387
python版libsvm在windows下安装使用
使用的libsvm版本是http://www.csie.ntu.edu.tw/~cjlin/libsvm/libsvm-2.89.zip python版本是2.6 解压缩libsvm后,将libsvm-2.89\windows\python目录下的svmc.pyd文件复制到C:\Python26\DLLs;将libsvm-2.89\python目录下的svm.py放到C:\Python26...
2009-08-08 20:34:41
185
windows下利用python拨号电信3G并获得IP地址
[code="java"] import win32ras import os if __name__ == '__main__': params = ('USB-KEY DIAL', '#777','','ctnet@mycdma.cn', 'vnet.mobi','') fs, ret = win32ras.Dial(None, None, params, None...
2009-07-17 22:28:02
233
python 网页抓取经验
一定要设置好user-agnet 和accept [code="java"] #coding:utf-8 ''' Created on 2009-7-15 @author: Administrator ''' import urllib2 import newhttplib import lxml.html as x def getmusic(num,soc=Non...
2009-07-16 20:19:07
117
python 网页抓取(使用代理服务器),解析一例
[code="java"] #coding:utf-8 ''' Created on 2009-7-15 @author: Administrator ''' import urllib2 import newhttplib import lxml.html as x def getmusic(num,soc=None): s=num.split(':') ...
2009-07-15 16:27:47
85
pycurl做https链接,免于校验的设置
[quote] curl_handle.setopt(pycurl.SSL_VERIFYHOST,0) curl_handle.setopt(pycurl.SSL_VERIFYPEER,0) [/quote]
2009-07-07 16:50:49
640
利用PIL做简单的图片数字识别
[code="java"] #coding:gbk ''' Created on 2009-7-7 @author: yuhai ''' import StringIO import Image,os import editdist dic={} def readimg(imgpath): buffer=StringIO.StringIO()...
2009-07-07 16:29:50
281
pywin32编程实例
这里面技巧太多, 1.使用win32的dll必须使用windll.LoadLibrary 2.获得一个字符串的值c_char_p(addr).value 3.wap拨号 4.使用win32ras 拨号 5. socket.bind [code="java"] import pycurl import StringIO import socket import win32...
2009-07-02 16:36:58
752
原创 ubuntu移除图形界面的命令
A short command on how to change Ubuntu so that it will only start in text mode, no X11 (graphical) mode. The following removes the graphical greeter from the runlevels : sudo update-rc.d -f gdm re...
2009-06-27 13:10:33
948
jsp 使用jdbc一例
[code="java"] =0) cat="post"; if(cat.indexOf("新闻")>=0) cat="news"; if(cat.indexOf("项目申报")>=0) cat="project"; sb.append(cat);
2009-06-26 13:48:53
159
MapRunnable设计一例
[code="java"] package org.apache.nutch.fetcher; import java.io.IOException; import java.util.HashSet; import java.util.Iterator; import org.apache.commons.httpclient.DefaultHttpMethodRetryHan...
2009-06-17 17:21:19
173
使用PIL和StringIO做图片resize
StringIO就是把内存里的数据封装成文件句柄 [code="java"] import os, sys import Image import StringIO size = 128, 128 outfile = 'D:/wallcoo-3.jpg' try: #im = Image.open('D:/wallcoo.jpg') fp=open...
2009-04-28 17:00:18
483
python中的正则表达式应用
[code="java"] f=open('wuqu.html','r') content=f.read() m=re.findall('[\w|\W]*?', content) print len(m) if m is None:return for i in range(1,len(m)): c=m[i] d=re...
2009-04-08 10:56:52
110
Tkinter图形界面设计
[code="java"] #coding=gbk from Tkinter import * import pycurl import sys, re, md5, os, time, commands import pycurl import cStringIO as _StringIO import sys import shutil, urllib, urllib2 i...
2009-03-29 19:01:19
273
原创 nutch搏斗之一
问题描述: 在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现 Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of...
2009-03-26 19:01:02
162
设计python版的爬虫
准备工作 安装Python2.5 安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各 种调试插件。 基本知识 需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法. 假设content是GBK编码,在python中,转换成UTF-8的方法如下: Content=Content.dec...
2009-03-26 10:49:22
119
原创 eclipse profile tool
http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.html Eclipse Test and Performance Tools Platform
2009-03-26 10:44:01
87
python抓取
准备工作 可以使用Python2.5,推荐使用2.4,因为需要兼顾wkfs的接口。 安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。 基本知识 需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法. 假设content是GBK编码,在python中,转换成UTF-8的方法如下: ...
2009-03-20 09:59:49
178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人