- 博客(88)
- 资源 (3)
- 收藏
- 关注
原创 小技巧
wget 整站下载 wget --restrict-file-name=ascii -m URL 例子 wget --restrict-file-name=ascii -m http://demo.pythoner.com/itt2zh/ch1.html 本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwang.blog.51cto.com/3265935/135
2014-02-10 15:54:17
526
原创 mahout所实现的算法
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms 列出mahout所实现或正在实现的一些算法ClassificationLogistic Regression (SGD)BayesianSupport Vector Machines (SVM) (open: MAHOUT-14, MAHOUT-232 and MAHOUT-
2014-02-10 15:54:15
779
转载 Mahout数据承载
转自: http://blog.youkuaiyun.com/zhoubl668/article/details/13508417推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。Preference在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好)。Preference是
2014-02-10 15:54:13
569
原创 Mahout中相似度计算方法介绍
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:650) this.width=650;" src="http://img1.51c
2014-02-10 15:54:11
555
转载 Mahout的taste推荐系统里的几种Recommender分析
Taste简介 看自:http://blog.youkuaiyun.com/zhoubl668/article/details/13297583Mahout 是apache下的一个java语言的开源大数据机器学习项目,与其他机器学习项目不同的是,它的算法多数是mapreduce方式写的,可以在hadoop上运行,并行化处理大规模数据。协同过滤在mahout里是由一个叫taste的引擎提供的, 它提供两种模式,
2014-02-10 15:54:09
1390
转载 从源代码剖析Mahout推荐引擎
从源代码剖析Mahout推荐引擎Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunc
2014-02-10 15:54:07
650
原创 学习推荐系统概况
推荐系统虽然有很多的技术 但是 总的来说可分为两大类 1. 基于内容的推荐(Content-Based System) 这类系统主要考察时推荐的项(Item)的性质。 2. 协同过滤系统(Collaborative-Filtering System) 这类系统通过计算用户与项之间的相似度来推荐项。基于内容的推荐: 实现的步奏 1. Item Representation:为每个i
2014-02-10 15:54:05
646
转载 学习机器学习 数据处理时 找到的这些链接 可以在上面下载到开源的研究数据数据
美国政府数据 http://www.data.gov/Movies Recommendation:MovieLens - Movie Recommendation Data Sets http://www.grouplens.org/node/73Yahoo! - Movie, Music, and Images Ratings Data Sets http://webscope.sandbox.
2014-02-10 15:54:03
1039
原创 mahout0.7 使用 JDBCDataModel
首先创建在mysql中创建库以及对应的表mysql> create database mahout;Query OK, 1 row affected (0.00 sec)mysql> use mahout;Database changedmysql> create table intro( -> uid varchar(20) not null, -> iid varc
2014-02-10 15:54:00
2991
1
转载 在windows xp下利用Eclipse构建Mahout
转自:http://www.cnblogs.com/dlts26/archive/2011/09/13/2174889.html1. Mahout构建的先决条件1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2.
2014-02-10 15:53:58
472
原创 python安装MySQLdb出错解决方案
_mysql.c:2422: 错误:初始值设定元素不是常量_mysql.c:2422: 错误:(在 ‘_mysql_ResultObject_memberlist[0].offset’ 的初始化附近)_mysql.c: In function ‘_mysql_ConnectionObject_getattr’:_mysql.c:2444: 错误:‘_mysql_ConnectionObject’
2014-02-10 15:53:56
857
转载 常用的正则表达式
"^\d+$" //非负整数(正整数 + 0)"^[0-9]*[1-9][0-9]*$" //正整数"^((-\d+)|(0+))$" //非正整数(负整数 + 0)"^-[0-9]*[1-9][0-9]*$" //负整数"^-?\d+$" //整数"^\d+(\.\d+)?$" //非负浮点数(正浮点数 + 0)"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0
2014-02-10 15:53:54
404
原创 shell 操作 sftp例子
#!/bin/shcd /data/ftproot/aic/SY_P1000_Zeal/inbound/testsftp lf119195@sftp2.geps.ge.com << EOF-cd QA/SY_P1000_Zeal/in-mget *quitEOFfind /data/ftproot/aic/SY_P1000_Zeal/inbound/test/ -nam
2014-02-10 15:53:52
3587
原创 php连接oracle数据库
Download: instantclient-basiclite-linux.x64-11.2.0.3.0.zip http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.htmlinstantclient-sdk-linux.x64-11.2.0.3.0.ziphttp://www.oracle.com/technetwo
2014-02-10 15:53:50
579
原创 linux磁盘配额使用
/web 777权限 允许每个用户操作 但是仅允许 用户有50m的使用空间1 首先开启/web 的磁盘配额功能 在/etc/fstab userquota 用户配额 grpquota 用户组配额mount -o remount,usrquota /test #临时开启用户磁盘配额在/etc/fstab里面可以这么写LABEL=/test /test ext3 defaults
2014-02-10 15:53:48
641
原创 samba 搭建小记
samba-3.5.6.tar.gztar -zxvg samba-3.5.6.tar.gzcd ./source3/make && make installcp samba-3.5.6/examples/smb.conf.default /usr/share/smaba/lib/ln -s /usr/local/samba/lib/libwbclient.so.0 /usr/lib64/libw
2014-02-10 15:53:45
455
原创 linux使用文件来实现swap的功能:SWAPFILE实现
如果安装机子交换分区没有分好不够大创建swap文件mkdir /var/swap #创建一个文件夹用于存放交换分区文件,自行决定chmod 700 /var/swap #修改交换分区文件夹权限介绍一下dd命令的一些使用技巧dd命令硬盘对拷:dd if=/dev/sda of=/dev/sdb # sda与sdb对拷创建指定大小的文件: dd if=/dev/zero of=/var/
2014-02-10 15:53:43
1322
原创 linux添加硬盘
主要涉及到的步骤 划分分区 fdisk 创建文件系统 mkfs 挂载 moount 写入配置文件 vim /etc/fstab首先是硬件或者虚拟机添加硬盘,查看硬盘是否被系统认识到dmesg | grep sdb #这里的sdb 主要是看你加载的硬盘类型以及 插槽所决定,如果插槽在第一个 他就会提示sda 所以请确定哈#会有大小提示 请注意查看#会提示 unk
2014-02-10 15:53:41
477
转载 ip 与 整数间 的相互转换 python实现
http://www.cnblogs.com/vovlie/archive/2012/10/17/2727029.html我们有时会将一个整数与IP地址进行互换,用python代码实现很简单将一个整数如2000000,变为一个IP地址的方式>>> import socket>>> import struct>>> int_ip = 123456789>>> ip = socket.inet_nto
2014-02-10 15:53:39
493
转载 oracle dba 常用sql語句
http://blog.youkuaiyun.com/cheungjustin/article/details/5631298常用SQL查询:1、查看表空间的名称及大小select t.tablespace_name, round(sum(bytes/(1024*1024)),0) ts_sizefrom dba_tablespaces t, dba_data_files dwhere t.tablespac
2014-02-10 15:53:37
498
原创 64位linux环境下编译安装cacti
首先安装apache# tar zxvf httpd-2.2.6.tar.gz# cd httpd-2.2.6# ./configure --prefix=/usr/local/apache22 --enable-module=so--with-mpm=worker --enable-module=rewrite# make && make install启动apache:#
2014-02-10 15:53:35
790
原创 Linux服务器ssh暴力破解-denyhosts解决详解
DenyHosts官方网站为:http://denyhosts.sourceforge.net/本文已附上附件,是从该网站下载的,版本为较新的2.6版。一、检查安装要求首选检查Sshd是否支持 Tcpwrap,只有支持Tcpwrap才可以安装Denyhost# ldd /usr/sbin/sshd |grep wraplibwrap.so.0 => /usr/lib/libwrap.so.0 (0
2014-02-10 15:53:32
920
原创 SCP传输数据
#远程到本地scp -r faic-sap-gewater@域名:/ftproot/* /ftproot/# 传输到远程scp -r /data/ftproot/aic/WATER_SAP/inbound/* faic-sap-gewater@域名:/ftproot/aic/WATER_SAP/inbound/如果是要传目录的话就要加上-r 不然就会出现 not a regular fil
2014-02-10 15:53:30
2265
转载 Linux查看进程的内存占用情况
原文 http://blog.youkuaiyun.com/xiyuan1999/article/details/8027386 1、top650) this.width=650;" src="http://www.51testing.com/attachments/2012/09/346836_201209131013341kY9H.jpg" border="0" height="130" width="6
2014-02-10 15:53:28
596
原创 MySql常用操作收集
/* 查看表大小 */SELECT CONCAT( TRUNCATE( SUM( data_length ) /1024 /1024, 2 ) , 'MB' ) AS data_size,CONCAT( TRUNCATE( SUM( max_data_length ) /1024 /1024, 2 ) , 'MB' )AS max_data_size,CONCAT( TRUNCAT
2014-02-10 15:53:26
650
原创 vsftpd搭建小记录
# vsftpd-3.0.2.tar.gzuseradd -s /sbin/nolog nobodymkdir /usr/share/empty/mkdir /var/ftpuseradd -d /var/ftp ftpchown root:root /var/ftpchmod og-w /var/ftp# 1)解压tar -zxvf vsftpd-3.0.2.ta
2014-02-10 15:53:24
439
原创 JBOSS简单三两步
jboss-as-7.1.1.Final.zipunzip jboss-as-7.1.1.Final.zipmv jboss-as-7.1.1.Final /usr/jboss/cd /usr/jboss/vim standalone/configuration/standalone.xml# 改为#为了能够在局域网中也能够访问jboss 以及jboss管理
2014-02-10 15:53:22
391
转载 mysql二进制日志文件清理以及 管理
原文:http://blog.youkuaiyun.com/cdefg198/article/details/70635241:二进制日志二进制日志记录了所有的DDL(数据定义语言)语句和DML(数据操作语言)语句,但是不记录包括数据查询的语句。语句以“事件”的形式保存,它描述了数据的更改过程,此日志对于灾难时的数据恢复起着极其重要的作用2:日志的位置和格式当用—log-bin[=file_name]选项启动
2014-02-10 15:53:20
861
原创 servlet 实现通过流数据传输下载
import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.ByteArrayOutputStream;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStre
2014-02-10 15:53:17
551
原创 servlet上传文件的实现
下载两样东西 都来自于apache的commons 项目 commons-fileupload-1.3-bin.zip:http://commons.apache.org/proper/commons-fileupload/上面那个依赖于 commons-io-2.4-bin.zipcommons-io-2.4-bin.zip: http://commons.apache.org/proper/c
2014-02-10 15:53:15
510
转载 linux sort/uniq 使用
来自:http://www.linuxde.net/2013/06/13941.html通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用JAVA来处理磁盘上文件的合并,需要用多少行代
2014-02-10 15:53:13
647
转载 Yet another MongoDB Map Reduce tutorial [一篇英文的mongodbMopreduce 文章 推荐一下]
http://blog.mongovue.com/2010/11/03/yet-another-mongodb-map-reduce-tutorial/BackgroundAs the title says, this is yet-another-tutorial on Map Reduce using MongoDB. But two things that are different her
2014-02-10 15:53:11
556
原创 Oracle 学习记录
SQL> --创建一个过程块SQL> CREATE OR REPLACE PROCEDURE hello_procedure 2 ( pv_whom VARCHAR2 ) IS 3 BEGIN 4 dbms_output.put_line('Hello ' || pv_whom || '.'); 5 END; 6 /过程已创建。SQL> --调
2014-02-10 15:53:09
456
原创 ubuntu python 安装 Matplotlib 不出图
apt-get install python-wxtools修改/usr/local/lib/python2.7/dist-packages/matplotlib/mpl-data目录下的matplotlibrc这个文件内容中的:# ‘module://my_backend’backend : WXAgg本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwa
2014-02-10 15:53:07
881
原创 一些资料收集以及补充
雅虎股票api介绍http://0411.iteye.com/blog/1068239本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwang.blog.51cto.com/3265935/1214893
2014-02-10 15:53:04
454
原创 R语言学习遇到的一些错误以及解决方案
1.WIN764 调用Snowball的时候 rJava出错提示包括 Snowball loadNamespace()里算'rJava'时.onLoad失败了解决方法 Path= ...;C:\Program Files\Java\jre6\bin\server\;C:\Program Files\R\R-2.12.1\bin\x64\解决方案连接:http://stackoverflow.com
2014-02-10 15:53:02
1598
原创 nutch的抓取流程 以及 手动实践
inject -> generate -> fetch -> parse -> updatedb第一个流程为把链接地址注入数据库 其对应的java 类为 org.apache.nutch.crawl.Injector实践 ./bin/nutch inject data3/crawldb urls/第二 生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,
2014-02-10 15:53:00
455
转载 Linux上最优秀的数据恢复工具
也许以后会用上 转自 http://www.geekfan.net/1300/不管是不是由于自己的失误,总有些时候我们存储的数据会出点问题。硬盘、固态硬盘以及移动媒介都有可能因为各种不同的原因而“丢失”掉文件。此外,有时候你可能想删除某个文件——不管是有意的还是无意的——稍后你突然意识到自己正好需要那个文件。与其因为文件丢失而抓狂,不如先试试文件恢复工具,看能不能挽回自己的损失。本文着重介绍Lin
2014-02-10 15:52:58
860
转载 如何在安装双启动后卸载 Windows 或者 Linux
关于如何在同一台电脑上运行多个操作系统的文章数不胜数,比如有的文章介绍了如何同时安装Windows和Linux,有的文章介绍了如何同时安装Windows和OS X,还有一些其他的文章。但是,当你想卸载其中的某个操作系统,你应该怎么办呢?下面,我们就介绍一下你安装了“Windows+Linux”双系统后,如何卸载Windows或Linux。 这个过程其实非常简单,但很多人安装双系统后第一次遇到这类
2014-02-10 15:52:56
493
原创 centos nutch 安装
先安装svn yum install svn通过svn 构建构建源代码结构svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/下载好后进入文件夹目录进行编译在这里 需要安装 ant 所以在下载的同时 可以再开一个窗口去下载ant++++++++++++++++++++++++++ 注意 +++++++++++++++++++
2014-02-10 15:52:54
747
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人