- 博客(99)
- 资源 (1)
- 收藏
- 关注

原创 LDA文档主题发现R
1.# 加载rJava、Rwordseg、tm、lda库 library(rJava); library(Rwordseg); library("lda", lib.loc="~/R/win-library/3.3")library("tm", lib.loc="~/R/win-library/3.3")2.# == 读入数据 lecture=read.csv("E:\\worldcup
2017-05-09 11:28:00
1783
3

原创 ARIMA时间序列
一:基础我们可以使用sacn()函数的”skip”参数指定文件中从顶部开始有多少行需要忽略。为了将数据读入到R,并且忽略掉文件中的前三行, 我们输入以下代码: kings <- scan(“D:\test\timeseries\king.txt”,skip=3) Read 42 items kings [1] 60 43 67 50 56 42 50 65 68 43 65
2017-04-10 20:38:17
2547

原创 出现Permission denied的解决办法
得到一个以.run结尾的安装文件,赋予它可执行权限。如果开启了SElinux模块,请先禁用!如:# chmod +x NVIDIA-Linux-x86_64-295.59.run向一个目录(myResources)粘贴文件的时候,出现这样一个提示Permission denied是权限没设好,只是拷贝粘贴一个文件,怎么会这样?解决的办法:$ sudo c
2016-10-04 18:04:34
333182
3

原创 扩大R控制台的显示行数及DBSCAN包
扩大R控制台的显示行数:ptions(max.print=1000000) R语言的DBSCAN包,找到了。http://rss.acs.unt.edu/Rdoc/library/fpc/html/dbscan.html需要安装fpc包install.packages(fpc)假设使用鸢尾花数据集iris.datads 感觉R半径和最
2016-09-11 14:32:55
1481

原创 R语言三种聚类
一、距离和相似系数二、层次聚类法三、动态聚类 kmeans四、DBSCAN一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean
2016-09-11 11:17:42
4409

原创 聚类算法评价指标
一、Not Given Label:1、Compactness(紧密性)(CP) CP计算 每一个类 各点到聚类中心的平均距离 CP越低意味着类内聚类距离越近 缺点:没有考虑类间效果2、Separation(间隔性)(SP) SP计算 各聚类中心两两之间平均距离 SP
2016-09-10 17:28:31
76595

转载 linux terminator多窗口
对Linux系统进行管理时,我们经常需要通过终端窗口输入各种操作命令。在GNOME集成桌面环境下,GNOME终端(gnome-terminal)是我们经常使用的终端程序,每次运行该程序都将打开一个单独的终端窗口。当我们进行命令行操作时,有时需要打开多个终端窗口,并且希望这些窗口能同时平铺显示,那该怎么办呢?其实,借助一款小巧而实用的软件——Terminator就可以轻松实现这一功能。 使用T
2016-05-29 10:09:58
3778

转载 VMware Workstation环境下的Linux网络设置
首先介绍一下VMware的网络连接方式。我们的主机通常经过物理网卡与局域网和Internet相连接,而虚拟机既已被称之为虚拟计算机,那虚拟网卡也必然存在,而如果我们想让虚拟计算机能连接到局域网或者Internet,那就必须让虚拟网卡和主机的真实物理网卡协同起来。VMware提供了三种将虚拟网卡和物理网卡捆绑起来的方式,即桥接(Bridge)模式,网络地址转换(Network Address T
2016-05-06 18:15:56
5784

原创 解决Ubuntu 安装vim 的Package vim has no installation candidate问题,100%有效
当输入sudo apt-get install vim-gtk时出现了下面问题:nigel@yq-ubuntu:~/worksp$ sudo apt-get install vim-gtkReading package lists... DoneBuilding dependency tree Reading state information... DonePa
2016-04-29 21:24:39
30089
3

原创 Linux 安装VMwareTools ,root登陆,权限问题
Linux 分层结构a).裸机:即硬件设备,基于裸机的开发要特别了解硬件本身,开发门槛高,开发复杂,程序不可移植,有大量的重复性工作,当然优点就是最有效的使用硬件。b).linux kemel :基于一切皆文件的理念极大的标准化和简化了基于硬件 的开发工作,同时在内核加入了任务地调度、Memory、CPU等管理极大的方便了程序的开发c).Shell:基于linux内核提供的System
2016-04-28 09:58:27
13605
转载 怎样学习大数据
·那大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢? 只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struct、Spring、Hibernate,Mybites都是JavaEE
2017-07-07 09:01:03
1015
原创 4.Flume三大组件Source、channel、Sink常用
参考:http://flume.apache.org/FlumeUserGuide.html#flume-sources1.Flume SourceSource类型 说明Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source 基于Unix的command在标准输出上生产数据 J
2017-05-02 11:34:35
3644
原创 3.Flume简单应用-netcat
1.安装netcat rpm -ivh ./*.rpm重启xineted./etc/rc.d/init.d/xineted restart2.使用flume命令$ bin/flume-ng Usage: bin/flume-ng <command> [options]...commands: agent run a Flume agentglobal
2017-05-02 11:09:06
1506
原创 2.Flume安装配置
1.解压到目录tar -zxf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /opt/modules/ 2.配置 (1)配置conf目录下的flume.sh,添加jdk路径 echo "$JAVA_HOME" export JAVA_HOME=/opt/modules/jdk1.7.0_67(2)Flume默认没有HDFS的Jar包,所以要把HDFSjar包导入到Flum
2017-05-02 10:18:33
437
原创 1.Flume概念,功能,架构
1.Flume概念和功能 Flume是一种分布式,可靠和可用的服务,用于高效收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制的强大和容错能力。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 Flume是Cloudera公司开发的用于实时收集服务器(apache/ngnix等)日志数据的框架,Flume很
2017-05-01 13:06:51
3952
原创 5.sqoop --options-file
For example, the following Sqoop invocation for import can be specified alternatively as shown below:$ sqoop import –connect jdbc:mysql://localhost/db –username foo –table TEST$ sqoop –options-file /us
2017-04-29 16:56:19
2234
1
原创 4.sqoop RDBMS与Hive数据互导
1.从RDBMS导入到Hive 其实是先将RDBMS数据导入到HDFS,然后在load到Hive表中。 对于parquet格式数据在sqoop1.4.6版本以后可以导入Hivebin/sqoop import \--connect jdbc:mysql://hadoop-CDH:3306/test \--username root \--password 123456 \--table
2017-04-29 16:35:13
596
原创 3.sqoop 导入到HDFS,导出到RDBMS
1.普通导入数据 bin/sqoop list-databases \ –connect jdbc:mysql://hostname:3306 \ –username root \ –password 123456 —————————————— mysql中创建表:CREATE TABLE my_user ( id tinyint(4) NOT NULL AUTO_INCREMEN
2017-04-29 11:26:18
2102
原创 2.sqoop安装配置与基本使用
1.配置 mkdir /opt/cdh-5.3.6 chown -R username:username /opt/cdh-5.3.6/ sqoop 的配置很简单,只需要配置sqoop安装目录下:sqoop_home/conf/sqoop.sh 2.基本使用 对于RDBMS中数据进行操作,少不了类似JDBC等的驱动, rdbms/mysql * jbdcurl\username
2017-04-29 11:06:12
719
原创 1.sqoop概念,功能,架构,版本
1.sqoop概念 sqoop(SQL TO HADOOP),是hadoop的协作框架之一 2.功能 对于hadoop进行大数据处理的数据来源主要有两部分 (1)关系数据库,RDBMS(Oracle,MySQL,DB2…) (2)文件(apache,nginx日志数据) hadoop 对于大数据的处理,是将数据存储在HDFS上,sqoop的功能就是将R
2017-04-29 10:37:46
6226
转载 修改hostname
Linux操作系统的hostname是一个kernel变量,可以通过hostname命令来查看本机的hostname。也可以直接cat /proc/sys/kernel/hostname查看。 #hostname #cat /proc/sys/kernel/hostname 上面两种输出结果相同。 修改运行时Linux系统的hostname,即不需要重启系统 hostname命令可以设置系
2017-04-27 16:39:20
539
原创 Hive 创建数据库报错
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From hadoop-senior01/192.168.88.134 to hadoop-sen
2017-04-19 11:06:29
3007
原创 关闭Hadoop时no namenode to stop异常
今天遇到了在关闭hadoop集群的时候,总会跳出说no XXnode to stop,但是使用jps命令任然可以看见进程还在运行的问题。通过查看hadoop安装目录下的sbin下的脚本文件:hadoop-daemon.sh查到,输出这种错误提示的原因是找不到相关进程的pid值,仔细查看该脚本,可以发现相关pid文件是默认保存在根目录下面的/tmp目录中。可以在使用kill命令杀死hadoop相关进
2017-04-15 15:24:08
3920
原创 hadoop datanode启动不起来解决办法
当多次对namenode进行格式化不成功,并且启动不了datanode。logs里记录如下: 当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存
2017-04-08 08:55:57
4615
1
原创 初识Hadoop(会飞的大象)
SQL on Hadoop 1)Hive 2)Prestore 3)Impala 基于内存 4)Phoneix(基于HBase) 5)Spark SQL 1.Hadoop是什么? 从Hadoop权威指南可以看出,Hadoop是用于对可扩展的网络数据的存储和分析。 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大
2017-04-05 10:32:37
1175
原创 RPM与yum软件管理
rpm -qa 列出系统安装了的rpm包 rpm -qa | grep httpd 查看httpd 是否安装好 安装 : rpm -ivh 包名 卸载:rpm -e 包名 查看文件属于那个包:rpm -qf /etc/ntp.conf yum list 列出所有可以安装的包(包括已安装) yum list | grep httpd-tools 查看httpd-tools有没有装
2017-04-03 11:20:14
667
原创 Linux磁盘分区
linux中所有的设备文件都在/dev下面。 df -h 查看分区情况 fdisk -l 查看磁盘的分区情况。(系统有几个硬盘,每个硬盘的分区情况) /dev/sda —-硬盘1 sda1 —代表第一个分区 sda2—第二个分区 sda3—第三个分区 /dev/sdb —-硬盘2 sdb1 —代表第一个分区 sdb2—第二个分区 sdb3—第三个分区 /dev/sdc —-
2017-04-03 10:17:39
527
原创 Linux 基本命令
常用指令ls 显示文件或目录 所在路径:/bin/ls -l 列出文件详细信息l(list) -d 查看目录属性 -a 列出当前目录下所有文件及目录,包括隐藏的a(all)mkdir 创建目录 所在路径:/bin/mkdir -p 创建目录,若无父目录,则创建p(parent)
2017-03-28 17:31:58
586
原创 VMware虚拟机内部错误以及NAT联网问题
今天,打开Vmvare虚拟机出现内部错误,如下: 其解决办法:在宿主系统的计算机管理中找到服务和应用程序,将Vmvare相关服务启动并改为自动: 当虚拟机不能联网时检查虚拟机设置 已连接和启动时连接一定要勾选上, 如果还是不能上网,要检查宿主系统VMnet8的IP地址 IP地址一般最末一位是1,前面3位可以在虚拟网络编辑器中查看: 确定是NAT模式,前面3位就是网段 然
2017-03-28 11:42:57
538
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人