韩王-信-优快云博客

转载数据挖掘基本算法

数据挖掘主要分为4类，即预测、分类、聚类和关联，根据不同的挖掘目的选择相应的算法。R语言博大精深，吸纳了来自各方的挖掘算法包，这些包都是由统计学家或是算法研究人员提供，我们可以站在这些伟人的肩膀上实现算法的应用。下面对常用的数据挖掘包做一个汇总：连续因变量的预测：stats包lm函数，实现多元线性回归stats包 glm函数，实现广义线性回归stats包 nls函数，实

2016-12-20 20:03:15 1364

原创 ggplot 多列bar图

ggplot 多列情况下bar图，geom_bar 的y只是支持一列不像barplot一样，要实现多列的需要把其余的列数转换成一列dsgmvorderdf##第一种方法是使用reshape的melt#install.packages('reshape2')#library('reshape2')df2pprint(p)##

2016-10-02 17:07:08 3524

原创统计频率和频数

使用内置的mtcars统计频数table(mtcars$gear)统计频率paste0(round(prop.table(table(mtcars$gear)),2)*100,’%’)统计频率的另一种方法，使用arregatetotal<-length(mtcarsgear)b<−aggregate(mtcarsgear) b<-aggregate(mtcarsgear,by=list(mtca

2016-10-01 17:55:39 2228

原创 R中的排序

1、order 是返回内在的排序位置，而不是直接返回排序结果。a> order(a)[1] 3 1 2 5 4order 默认是asc的如果要desc的直接加-号> order(-a)[1] 4 5 2 1 3order 返回结果> a[order(-a)][1] 23 20 15 12 9order的这样的特性在datafra

2016-10-01 14:26:01 1254

原创 igraph关系图

导入关系测试数据，如下，这个不是用户和用户之间的关心，而是用户和环境信息的关系，基于用户和设备之间的关系，不同的设备用不同的颜色标出来###从csv文件中读取关系数据df###从关系数据中整理出来顶点的数据，vertex##给用户的顶点统一表上黑色co##根据设备类型进行着色iwhile (i##生成顶点数据框vertex###组合成

2016-09-30 20:20:12 5911

原创 ggplot2 分面多数据源组合示例

library(ggplot2)source('~/R/odps_common.R')sql' select cust_name_cn,yyyymm as ds,gmv,amplitude,rn from icbubi.dwa_en_ftrd_mon_cust_gmv_d where ds=max_pt(\'icbubi.dwa_en_ftrd_mon_cust_gmv_

2016-09-29 13:17:07 2624

原创 R中关于显示标签的几个问题

1、使用统计变换summary后的标签值得显示，统计变换后需要用到衍生变量来显示变换后的统计值df x=c(3,1,5,3), y=c(2,4,6,10), label=c('a','a','a','b')) ggplot(data=df,aes(x=as.character(x),y=y))+geom_bar(fun.y=sum,stat='summary')

2016-09-21 18:55:39 5638

转载 linux环境变量设置错误后，如何恢复解决方案：

linux环境变量设置错误后，如何恢复解决方案：在命令行中输入：export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin

2015-08-01 11:12:48 2436

转载 mysql 安装无法登录无法修改root密码

# mysqld_safe --user=mysql --skip-grant-tables --skip-networking &# mysql -u root mysqlmysql> UPDATE user SET Password=PASSWORD('newpassword') where USER='root';mysql> FLUSH PRIVILEGES;mysql> quit

2015-06-23 19:31:23 990

转载 R语言中的四类统计分布函数

R语言中的四类统计分布函数R语言中提供了四类有关统计分布的函数（密度函数，累计分布函数，分位函数，随机数函数）。分别在代表该分布的R函数前加上相应前缀获得(d，p，q，r)。如：1）正态分布的函数是norm，命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。2）同理，pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。

2015-05-29 09:25:01 7223

原创 R矩阵的索引

1、矩阵可由向量转换得到，所以矩阵原则上用向量的索引方法> a=matrix(1:12,3,4)> a [,1] [,2] [,3] [,4][1,] 1 4 7 10[2,] 2 5 8 11[3,] 3 6 9 12使用二维索引> a[1,2][1] 4

2015-04-20 21:20:50 7235

原创 python 函数参数调用的常见方法

##unpacked list or tuple for parametersa=[1,5,3]def getg(test,*value): print(test) for i in value: print(i)getg('go from here',*a)##arbitrary argument list

2015-02-14 13:49:17 860

原创 mac 配置sshd

在mac启动sshd提示Could not load host key: /etc/ssh/ssh_host_rsa_keyCould not load host key: /etc/ssh/ssh_host_dsa_key解决办法：以root 到etc目录下ssh-keygen -t dsa -f /etc/ssh/ssh_host

2014-12-29 15:28:14 2232

原创 linux shell join命令一定要把文件先sort，而且不能有空行否则后果很严重

如题

2014-10-30 12:09:01 2862

原创 linux 下查看和转换文件字符集

可以使用file 查看编码用iconv 更改iconv -f GBK -t utf8 query.txt>query2.txt

2014-10-28 13:39:12 1042

原创 shell 正则截取字符串

shell 正则截取字符串用sed替换功能 echo 'weihongrao' |sed 's/wei$hong$rao/\1/g'比如我有如下文件 test.txt12344554534543232534sdfhosnfsdfwueorhalfsafsdfse1231231823918231247391274921djflajsdfasff

2014-09-23 11:30:37 15926

转载 bash shell中expr命令下几种的使用

expr在linux中是一个功能非常强大的命令。通过学习做一个小小的总结。1、计算字符串的长度。我们可以用awk中的length(s)进行计算。我们也可以用echo中的echo ${#string}进行计算，当然也可以expr中的expr length $string 求出字符串的长度。举例[plain] view plaincopy

2014-08-29 09:08:34 4987

原创命令行升级ubuntu

昨天手贱在ubuntu 点击了升级，升级完成之后没法进入系统，索性将错就错把决心吧系统从12.04 直接升级到13.10.1. 因为我的任何界面都无法进入，所以选择previous version的recovery 模式进去，把网线插好，先选择network 那一项启动网路2. 选择resume模式以root登录command3 ping 一个网址看看网络是否是通的4.apt-ge

2014-03-30 14:15:25 779

转载 ubuntu gedit 显示中文

gsettings set org.gnome.gedit.preferences.encodings auto-detected "['GB18030', 'UTF-8', 'CURRENT', 'ISO-8859-15', 'UTF-16']"参考http://wiki.ubuntu.com.cn/Gedit%E4%B8%AD%E6%96%87%E4%B9%B1%E7%A0%81

2014-03-28 09:24:44 789

原创 ubuntu 下ln 动作源文件和目标文件必须用完整路径否则会不成功

如题

2014-03-26 16:41:39 1375

转载 ubuntu 访问window共享

在命令行模式下mount //192.168.1.3/server_share -o user=DOMIAN\\user,pass=passwd /mnt注意有两点（1），domain这里是域名，并且12.04要必须大写，不知道的话在界面打开主文件夹点击网络来查看。（2），这里有两个\\,其中第一个是转义符，第二个是\

2014-03-26 08:10:26 638

原创 ubuntu 下安装xmind

1.到xmind官方网站上下载deb包 xmind-linux-3.4.1.201401221918_amd64.deb2. sudo dpkg --ignore-depends=sun-java5-jre,sun-java6-jre,openjdk-6-jre -i xmind-linux-3.4.1.201401221918_amd64.deb 这一步确保已经安装了java ，我由于安

2014-03-25 16:45:33 4066

原创 linux 根据文件路径自动创建文件夹

[root@hadoop henhao]# file="hongrao/expedia/egencia/accountdim.txt"[root@hadoop henhao]# path=${file%/*} #这里获取文件的路径[root@hadoop henhao]# mkdir -p $path #mkfir -p 在目录不存在的情况下自动创建路径[root@hadoop he

2014-02-17 14:14:13 7714

原创 linux 字符串转换成数组

linux中数组用小括号定义，所以转换的时候只需要吧变量放在小括号中即可1. 直接创建数组[root@hadoop ~]# names=(wei hong rao)[root@hadoop ~]# echo ${#names[@]}32.通过命令结果获取数组[root@hadoop ~]# names=($(echo 'wei hong rao') )[root@h

2014-02-17 11:21:49 7267

原创 linux 显示控制符号和制表符号

测试文件[root@hadoop ~]# cat t.txtwei hong rao#这里用tab分割wei hong rao#这里用空格分割raog#这里用^M(CTRL+V+M)分割weihongrao#这里用^^(CTRL+V+^)分割weihongrao#这里用^T(CTRL+V+T)分割wei hong rao#这里用TAB键分

2014-02-17 11:03:17 2084

原创 read 数组

hadoop@hadoop:~$ IFS=$tmpIFShadoop@hadoop:~$ IFS='#'hadoop@hadoop:~$ echo "${IFS}"#hadoop@hadoop:~$ echo "wei#hon#rao"|while read -a names;do echo "the len of the array is ${#names[*]}";done

2014-02-16 15:42:56 1096

原创 linux 管道产生子shell

linux中使用管道，下一个命令会放在子shell中执行，子shell中是不能访问主shell的变量hadoop@hadoop:~$ cat file.txthanxinhadoop@hadoop:~$ me=weihongraohadoop@hadoop:~$ cat file.txt | while read line;do me=$line;echo "inner me is

2014-02-16 15:42:42 1950

原创 linux下xargs基本用法

新建一个文件看下有如下测试数据hadoop@hadoop:~$ cat test.txtweihongrao is stupyhohai universityfirst time to shenzhen is 2009now i will goend hereshell 文件如下hadoop@hadoop:~$ cat test.sh#!/bin/bas

2014-02-16 14:10:53 872

原创 linux 文件类型

linux 的文件类型主要有以下几种，在用ls -l显示-：普通文件l：连接文件c：字符设备d：目录b：块文件p：管道文件s：socket文件除了用ls -l可以查看文件类型外在shell编程中还常用stat 命令来方便的取出文件各种属性值,1. 所有属性[root@hadoop ~]# stat go4.txt File: `go4.t

2014-02-14 15:00:48 678

原创检索文本例子结合sed，head，tail，cut

有如下文本[root@hadoop ~]# cat s.txthead testhead test againweihongrao startthis is goingweihongrao is stupyweihongrao is the rulerendweihongrao but still goingendweihongrao this is true

2014-02-11 18:29:24 898

进入vi的命令vi filename :打开或新建文件，并将光标置于第一行首vi +n filename ：打开文件，并将光标置于第n行首vi + filename ：打开文件，并将光标置于最后一行首vi +/pattern filename：打开文件，并将光标置于第一个与pattern匹配的串处vi -r filename ：在上次正用vi编辑时发生系统崩溃，恢复filenamevi filen

2014-02-01 21:03:22 1031

转载 linux less

less 工具也是对文件或其它输出进行分页显示的工具，应该说是linux正统查看文件内容的工具，功能极其强大。less 的用法比起 more 更加的有弹性。在 more 的时候，我们并没有办法向前面翻，只能往后面看，但若使用了 less 时，就可以使用 [pageup] [pagedown] 等按键的功能来往前往后翻看文件，更容易用来查看一个文件的内容！除此之外，在 less 里头可以拥有更多的

2014-02-01 16:30:03 631

原创 linux shell 变量的名称来源于另一个变量的值

[root@hadoop ~]# name=me[root@hadoop ~]# name="me"[root@hadoop ~]# me="hongrao"第一种方法[root@hadoop ~]# eval echo \$$namehongrao第二种方法，bash2.0[root@hadoop ~]# echo ${!name}hongrao

2014-01-26 15:35:56 1633

转载 linux tr 命令详解

linux tr 命令详解http://blog.chinaunix.net/u2/66903/showart_1902477.html 1、关于tr 通过使用 tr，您可以非常容易地实现 sed 的许多最基本功能。您可以将 tr 看作为 sed 的（极其）简化的变体：它可以用一个字符来替换另一个字符，或者可以完全除去一些字符。您也可以用它来除去重复字符。这就是所有

2014-01-14 16:37:58 701

转载 Linux Shell Bash 带有特殊含义的退出码

SYSTEM ADMINISTRATIONLinux Shell Bash 带有特殊含义的退出码表格 D-1. "保留的"退出码退出码的值含义例子注释1通用错误let "var1 = 1/0"各种各样的错误都可能使用这个退出码, 比如"除0错误"2shel

2014-01-14 11:26:32 1337

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）的同仁应该很熟悉如下的原 MapRe

2014-01-09 14:45:59 790

原创 java 线程池执行callable 的返回值问题

java中使用线程池能保证线程的并发量，当使用线程池来提交线程时候，如果是callable的线程应当注意有返回值的情况下会引起主线程（通常是调用线程或者main线程阻塞），导致线程会顺序执行。如下：import java.util.concurrent.*;class myCallable implements Callable{ public String

2014-01-08 15:43:54 2655

原创 java 多线程的三种方法

1. 继承Thread类，使用这样的办法不可以多个线程共享线程资源public class myTread extends Thread { /** * @param args */ private int j=0; @Override public void run() {

2014-01-08 14:51:38 862

原创 hive reduce 个数

hive在执行一个HQL产生的MR JOB的时候默认是以以下方式决定reducer的个数的，N=min(参数2，总输入数据量/参数1)第一个参数默认为1000^3 ： hive.exec.reducers.bytes.per.reducer第二个参数默认为999 ：hive.exec.reducers.max（默认为999）可以手动设置这个值set mapred.reduc

2013-12-27 10:27:24 851

空空如也

空空如也