
大数据
文章平均质量分 86
美梦是个可怜虫
我是pumbaa
展开
-
大数据的一些介绍
数据分析Created Wednesday 14 March 2018 数据分析分为:描述性数据分析,探索性数据分析,验证性数据分析现状分析,原因分析,预测分析数据分析方法:是从微观的角度来说数据分析的方法数据分析方法论:从宏观上进行数据分析分布式服务框架:Dubbo(阿里巴巴)把服务层和应用层进行切割。提高并发量,减少资源消耗分布式静态资源:对网站的静态资源JS,CSS,图片等资源进行分布式部署...原创 2018-03-14 19:08:17 · 717 阅读 · 0 评论 -
hadoop分布式集群搭建
集群搭建(以搭建三个节点为例子)1.打开centos网卡NAT模式2.查看各个主机的时间是不是同步:date命令2.修改/etc/sysconfig/network文件,设置主机名(centos2,centos03类似) # Created by anaconda NETWORKING=yes HOSTNAME=centos013.修改/etc/hosts文件(c...原创 2018-08-21 17:51:30 · 259 阅读 · 0 评论 -
spark集群搭建与mysql元数据管理
找个spark集群搭建是针对于上一篇hadoop的基础上搭建的。所以spark的版本也是要按照着hadoop版本进行下载。1.解压spark,修改spark的/etc/profile的home目录。2.安装SCALA,并配置SCALA_HOME。3.修改spark conf目录下的spark-env.sh文件,并添加下列配置 export JAVA_HOME=/roo...原创 2018-08-27 15:23:24 · 1181 阅读 · 0 评论 -
利用jenkins运行我的第一个java程序
1.创建github和本地git仓库的关联关系首先创建在github上面创建一个repository,我们命名为algorithm。 然后我们配置本地主机的git。 在git shell中ssh,其中生产rsa公钥的时候,记得写自己gith注册的邮箱。 然后生成了rsa.pub打开,把公钥字符上传到github上,这里的步骤网上有很多具体我不再详细描述。 然后打开vscode,...原创 2018-06-21 20:11:27 · 2763 阅读 · 2 评论 -
ZooKeeper分布式协调服务-本质是一种小的分布式文件系统
ZooKeeperCreated Tuesday 13 March 2018ZooKeeper分布式协调服务ZooKeeper本质上是一个分布式的小文件系统1.全局数据一致性 无论客户端链接到哪个server,展示的数据都是一致的,因为每个server保存一份相同的数据副本。2.可靠性如果消息被其中一台服务器接受,那么将被所有的服务器接受3.顺序性全局有序:一台服务器上消息a在消息b前发布,则在所...原创 2018-03-13 17:26:35 · 566 阅读 · 0 评论 -
HDFS利用FileSystem API文件的读写
package com.demo.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs....原创 2018-03-06 15:20:18 · 1065 阅读 · 0 评论 -
shell的基础知识
shellCreated Tuesday 13 March 2018shell是用C语言编写的程序。bash由于易用免费,bash shell是linux系统默认的shellhello.sh但是后缀名并不影响脚本执行,但是后缀方便人识别这是个shell程序vi 创建一个hello.sh在文件种首行写上#!/bin/bash再写上echo "hello world"-rw-rw-r-- 1 pum...原创 2018-03-13 13:31:26 · 167 阅读 · 0 评论 -
linux基础知识和配置命令用法
Created Monday 12 March 2018ifconfig 查看系统ipping baidu.com完整克隆,需要修改主机名,网卡mac,和IP修改配置文件:vi /etc/sysconfig/network但是在ubuntu是修改 etc/hostnamerm -rf删除文件SSH:安全外壳协议,专为远程登录会话和其他网络服务提供安全性的协议,通过使用SSH,可以把传输的数据进行...原创 2018-03-12 23:07:31 · 422 阅读 · 0 评论 -
一个简单的WordCount程序
package com.demo.hadoop.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o...原创 2018-03-04 19:22:11 · 368 阅读 · 0 评论 -
hadoop集群开启
hadoop集群1Created Friday 16 March 20181.单节点逐个启动.在主节点上运行:hadoop-daemon.sh start namenode在从节点上面启动:hadoop-daemon.sh start datanode在主节点上启动:yarn-daemon.sh start resourcemanager在从节点上启动:yarn-daemon.sh start n...原创 2018-03-16 20:51:43 · 235 阅读 · 0 评论 -
hdfs的一些基础
hdfsCreated Friday 16 March 2018hdfs:通过统一的命名空间目录树来定位文件.hdfs采用的是master/slave架构,一般一个hdfs集群是有一个namenode和一定数目的datanode组成,Namenode是hdfs集群主节点,datanode是hdfs集群的从节点,两种角色各司其职,共同协调完成分布式的文件存储服务.hdfs中的文件在物理上是分块存储(...原创 2018-03-16 20:50:06 · 311 阅读 · 0 评论 -
hadoop集群配置
配置hadoopCreated Thursday 15 March 2018一般在主节点进行修改配置后,利用scp命令下发给其他各个节点机器上已一个节点为例:比如我此次配置的node011.hadoop-env.shvi hadoop-env.shexport JAVA_HOME=/root/apps/jdk1.8.0_652.core-site.xml指定hadoop所使用的文件系统schema...原创 2018-03-15 23:07:31 · 129 阅读 · 0 评论 -
hadoop集群搭建前需要配置的一些内容
hadoop集群搭建前的配置Created Wednesday 14 March 2018系统是基于Centos64位的注意修改bootproto ,gateway, netmask网络环境准备:采用nat方式联网服务器系统设置:1.同步时间yum install ntpdatentpdate cn.pool.ntp.org2.设置主机名vi /etc/sysc...原创 2018-03-15 22:14:30 · 205 阅读 · 0 评论 -
源码编译hadoop遇到的几个问题
自己搭建集群遇到的几个问题Created Thursday 15 March 2018源码编译hadoop的步骤在以下博客链接中:http://blog.youkuaiyun.com/libingxin/article/details/51097071编译hadoop需要的依赖可以查看BUILD.txt文件1.安装putty需要先安装GTK库2.在集群节点中,centos默认网卡的关闭的,需要vi /etc/...原创 2018-03-15 22:03:45 · 503 阅读 · 0 评论 -
pom.xml配置文件
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4....原创 2018-03-08 19:18:19 · 190 阅读 · 0 评论 -
hadoop的一些基础知识
HadoopCreated Wednesday 14 March 2018HDFS:分布式文件系统Yarn:作业调度和集群资源管理框架MapReduce:分布式运算编程框架狭义Hadoop定义:HDFS,YARN,MAPREDUCE广义Hadoop定义:一个hadoop生态圈 hadoop版本:社区版,商业版(cloudera的CDH)hadoop集群搭建:hadoop集群包含两个集群,HDFS集...原创 2018-03-14 21:31:31 · 205 阅读 · 0 评论 -
给刚学spark的你,一些建议~!
前述:这几天看完了一本有关spark的书,加上回顾了一些spark的视频,感觉以前很多不是很懂的细节,现在终于有了一点概念。在这里安利一些入门spark的资源:网易云课堂,林子雨老师的spark视频,讲的很细节,很适合入门边学边做。 《spark最佳实践》:里面涉及到很多基础的知识点,所以入门也应该看看,并且对spark编程方面也会有所帮助。 《Spark大数据处理:技术、应用与性能优化》...原创 2018-11-29 17:36:53 · 642 阅读 · 0 评论