- 博客(251)
- 收藏
- 关注
转载 数据挖掘基本算法
数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。R语言博大精深,吸纳了来自各方的挖掘算法包,这些包都是由统计学家或是算法研究人员提供,我们可以站在这些伟人的肩膀上实现算法的应用。下面对常用的数据挖掘包做一个汇总:连续因变量的预测:stats包lm函数,实现多元线性回归stats包 glm函数,实现广义线性回归stats包 nls函数,实
2016-12-20 20:03:15
1301
原创 ggplot 多列bar图
ggplot 多列情况下bar图,geom_bar 的y只是支持一列不像barplot一样,要实现多列的需要把其余的列数转换成一列dsgmvorderdf##第一种方法是使用reshape的melt#install.packages('reshape2')#library('reshape2')df2pprint(p)##
2016-10-02 17:07:08
3438
原创 统计频率和频数
使用内置的mtcars统计频数table(mtcars$gear)统计频率paste0(round(prop.table(table(mtcars$gear)),2)*100,’%’)统计频率的另一种方法,使用arregatetotal<-length(mtcarsgear)b<−aggregate(mtcarsgear) b<-aggregate(mtcarsgear,by=list(mtca
2016-10-01 17:55:39
2164
原创 R中的排序
1、order 是返回内在的排序位置,而不是直接返回排序结果。a> order(a)[1] 3 1 2 5 4order 默认是asc的如果要desc的直接加-号> order(-a)[1] 4 5 2 1 3order 返回结果> a[order(-a)][1] 23 20 15 12 9order的这样的特性在datafra
2016-10-01 14:26:01
1118
原创 igraph关系图
导入关系测试数据,如下,这个不是用户和用户之间的关心,而是用户和环境信息的关系,基于用户和设备之间的关系,不同的设备用不同的颜色标出来###从csv文件中读取关系数据df###从关系数据中整理出来顶点的数据,vertex##给用户的顶点统一表上黑色co##根据设备类型进行着色iwhile (i##生成顶点数据框vertex###组合成
2016-09-30 20:20:12
5837
原创 ggplot2 分面多数据源组合示例
library(ggplot2)source('~/R/odps_common.R')sql' select cust_name_cn,yyyymm as ds,gmv,amplitude,rn from icbubi.dwa_en_ftrd_mon_cust_gmv_d where ds=max_pt(\'icbubi.dwa_en_ftrd_mon_cust_gmv_
2016-09-29 13:17:07
2575
原创 R中关于显示标签的几个问题
1、使用统计变换summary后的标签值得显示,统计变换后需要用到衍生变量来显示变换后的统计值df x=c(3,1,5,3), y=c(2,4,6,10), label=c('a','a','a','b')) ggplot(data=df,aes(x=as.character(x),y=y))+geom_bar(fun.y=sum,stat='summary')
2016-09-21 18:55:39
5541
转载 linux环境变量设置错误后,如何恢复解决方案:
linux环境变量设置错误后,如何恢复解决方案:在命令行中输入:export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin
2015-08-01 11:12:48
2349
转载 mysql 安装无法登录无法修改root密码
# mysqld_safe --user=mysql --skip-grant-tables --skip-networking &# mysql -u root mysqlmysql> UPDATE user SET Password=PASSWORD('newpassword') where USER='root';mysql> FLUSH PRIVILEGES;mysql> quit
2015-06-23 19:31:23
947
转载 R语言中的四类统计分布函数
R语言中的四类统计分布函数R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数)。分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r)。如:1)正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。2)同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。
2015-05-29 09:25:01
7128
原创 R矩阵的索引
1、矩阵可由向量转换得到,所以矩阵原则上用向量的索引方法> a=matrix(1:12,3,4)> a [,1] [,2] [,3] [,4][1,] 1 4 7 10[2,] 2 5 8 11[3,] 3 6 9 12使用二维索引> a[1,2][1] 4
2015-04-20 21:20:50
7189
原创 python 函数参数 调用的常见方法
##unpacked list or tuple for parametersa=[1,5,3]def getg(test,*value): print(test) for i in value: print(i)getg('go from here',*a)##arbitrary argument list
2015-02-14 13:49:17
820
原创 mac 配置sshd
在mac启动sshd提示Could not load host key: /etc/ssh/ssh_host_rsa_keyCould not load host key: /etc/ssh/ssh_host_dsa_key解决办法:以root 到etc目录下ssh-keygen -t dsa -f /etc/ssh/ssh_host
2014-12-29 15:28:14
2179
原创 linux 下查看和转换文件字符集
可以使用file 查看编码 用iconv 更改iconv -f GBK -t utf8 query.txt>query2.txt
2014-10-28 13:39:12
992
原创 shell 正则截取字符串
shell 正则截取字符串用sed替换功能 echo 'weihongrao' |sed 's/wei\(hong\)rao/\1/g'比如我有如下文件 test.txt12344554534543232534sdfhosnfsdfwueorhalfsafsdfse1231231823918231247391274921djflajsdfasff
2014-09-23 11:30:37
15868
转载 bash shell中expr命令下几种的使用
expr在linux中是一个功能非常强大的命令。通过学习做一个小小的总结。1、计算字符串的长度。我们可以用awk中的length(s)进行计算。我们也可以用echo中的echo ${#string}进行计算,当然也可以expr中的expr length $string 求出字符串的长度。举例[plain] view plaincopy
2014-08-29 09:08:34
4921
原创 命令行升级ubuntu
昨天手贱在ubuntu 点击了升级,升级完成之后没法进入系统,索性将错就错把决心吧系统从12.04 直接升级到13.10.1. 因为我的任何界面都无法进入,所以选择previous version的recovery 模式进去,把网线插好,先选择network 那一项启动网路2. 选择resume模式以root登录command3 ping 一个网址看看网络是否是通的4.apt-ge
2014-03-30 14:15:25
735
转载 ubuntu gedit 显示中文
gsettings set org.gnome.gedit.preferences.encodings auto-detected "['GB18030', 'UTF-8', 'CURRENT', 'ISO-8859-15', 'UTF-16']"参考http://wiki.ubuntu.com.cn/Gedit%E4%B8%AD%E6%96%87%E4%B9%B1%E7%A0%81
2014-03-28 09:24:44
745
转载 ubuntu 访问window共享
在命令行模式下mount //192.168.1.3/server_share -o user=DOMIAN\\user,pass=passwd /mnt注意有两点(1),domain这里是域名,并且12.04要 必须大写,不知道的话在界面打开主文件夹点击网络来查看。(2),这里有两个\\,其中第一个是转义符,第二个是\
2014-03-26 08:10:26
597
原创 ubuntu 下安装xmind
1.到xmind官方网站上下载deb包 xmind-linux-3.4.1.201401221918_amd64.deb2. sudo dpkg --ignore-depends=sun-java5-jre,sun-java6-jre,openjdk-6-jre -i xmind-linux-3.4.1.201401221918_amd64.deb 这一步确保已经安装了java ,我由于安
2014-03-25 16:45:33
3759
原创 linux 根据文件路径自动创建文件夹
[root@hadoop henhao]# file="hongrao/expedia/egencia/accountdim.txt"[root@hadoop henhao]# path=${file%/*} #这里获取文件的路径[root@hadoop henhao]# mkdir -p $path #mkfir -p 在目录不存在的情况下自动创建路径[root@hadoop he
2014-02-17 14:14:13
7616
原创 linux 字符串转换成数组
linux中数组用小括号定义,所以转换的时候只需要吧变量放在小括号中即可1. 直接创建数组[root@hadoop ~]# names=(wei hong rao)[root@hadoop ~]# echo ${#names[@]}32.通过命令结果获取数组[root@hadoop ~]# names=($(echo 'wei hong rao') )[root@h
2014-02-17 11:21:49
7174
原创 linux 显示控制符号和制表符号
测试文件[root@hadoop ~]# cat t.txtwei hong rao#这里用tab分割wei hong rao#这里用空格分割raog#这里用^M(CTRL+V+M)分割weihongrao#这里用^^(CTRL+V+^)分割weihongrao#这里用^T(CTRL+V+T)分割wei hong rao#这里用TAB键分
2014-02-17 11:03:17
2032
原创 read 数组
hadoop@hadoop:~$ IFS=$tmpIFShadoop@hadoop:~$ IFS='#'hadoop@hadoop:~$ echo "${IFS}"#hadoop@hadoop:~$ echo "wei#hon#rao"|while read -a names;do echo "the len of the array is ${#names[*]}";done
2014-02-16 15:42:56
1049
原创 linux 管道产生子shell
linux中使用管道,下一个命令会放在子shell中执行,子shell中是不能访问主shell的变量hadoop@hadoop:~$ cat file.txthanxinhadoop@hadoop:~$ me=weihongraohadoop@hadoop:~$ cat file.txt | while read line;do me=$line;echo "inner me is
2014-02-16 15:42:42
1897
原创 linux下xargs基本用法
新建一个文件看下有如下测试数据hadoop@hadoop:~$ cat test.txtweihongrao is stupyhohai universityfirst time to shenzhen is 2009now i will goend hereshell 文件如下hadoop@hadoop:~$ cat test.sh#!/bin/bas
2014-02-16 14:10:53
843
原创 linux 文件类型
linux 的文件类型主要有以下几种,在用ls -l显示-:普通文件l:连接文件c:字符设备d:目录b:块文件p:管道文件s:socket文件 除了用ls -l可以查看文件类型外在shell编程中还常用stat 命令来方便的取出文件各种属性值,1. 所有属性[root@hadoop ~]# stat go4.txt File: `go4.t
2014-02-14 15:00:48
642
原创 检索文本例子结合sed,head,tail,cut
有如下文本[root@hadoop ~]# cat s.txthead testhead test againweihongrao startthis is goingweihongrao is stupyweihongrao is the rulerendweihongrao but still goingendweihongrao this is true
2014-02-11 18:29:24
854
转载 linux vi 命令大全
进入vi的命令vi filename :打开或新建文件,并将光标置于第一行首vi +n filename :打开文件,并将光标置于第n行首vi + filename :打开文件,并将光标置于最后一行首vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filenamevi filen
2014-02-01 21:03:22
942
转载 linux less
less 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。在 more 的时候,我们并没有办法向前面翻, 只能往后面看,但若使用了 less 时,就可以使用 [pageup] [pagedown] 等按键的功能来往前往后翻看文件,更容易用来查看一个文件的内容!除此之外,在 less 里头可以拥有更多的
2014-02-01 16:30:03
595
原创 linux shell 变量的名称来源于另一个变量的值
[root@hadoop ~]# name=me[root@hadoop ~]# name="me"[root@hadoop ~]# me="hongrao"第一种方法[root@hadoop ~]# eval echo \$$namehongrao第二种方法,bash2.0[root@hadoop ~]# echo ${!name}hongrao
2014-01-26 15:35:56
1591
转载 linux tr 命令详解
linux tr 命令详解http://blog.chinaunix.net/u2/66903/showart_1902477.html 1、关于tr 通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能。您可以将 tr 看作为 sed 的(极其)简化的变体:它可以用一个字符来替换另一个字符,或者可以完全除去一些字符。您也可以用它来除去重复字符。这就是所有
2014-01-14 16:37:58
661
转载 Linux Shell Bash 带有特殊含义的退出码
SYSTEM ADMINISTRATIONLinux Shell Bash 带有特殊含义的退出码表格 D-1. "保留的"退出码退出码的值含义例子注释1通用错误let "var1 = 1/0"各种各样的错误都可能使用这个退出码, 比如"除0错误"2shel
2014-01-14 11:26:32
1230
转载 Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapRe
2014-01-09 14:45:59
757
原创 java 线程池 执行callable 的返回值问题
java中使用线程池能保证线程的并发量,当使用线程池来提交线程时候,如果是callable的线程应当注意有返回值的情况下会引起主线程(通常是调用线程或者main线程阻塞),导致线程会顺序执行。如下:import java.util.concurrent.*;class myCallable implements Callable{ public String
2014-01-08 15:43:54
2616
原创 java 多线程的三种方法
1. 继承Thread类,使用这样的办法不可以多个线程共享线程资源public class myTread extends Thread { /** * @param args */ private int j=0; @Override public void run() {
2014-01-08 14:51:38
826
原创 hive reduce 个数
hive在执行一个HQL产生的MR JOB的时候默认是以以下方式决定reducer的个数的,N=min(参数2,总输入数据量/参数1)第一个参数 默认为1000^3 : hive.exec.reducers.bytes.per.reducer第二个参数 默认为999 :hive.exec.reducers.max(默认为999)可以手动设置这个值set mapred.reduc
2013-12-27 10:27:24
809
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人