
F2__大数据
大数据
莫逸风
代码和人生需要加法也需要减法。
Nothing is impossible.
you can never be ready.
展开
-
pyspark启动与简单使用----本地模式(local)----shell
在Spark中采用本地模式启动pyspark的命令主要包含以下参数:–master:这个参数表示当前的pyspark要连接到哪个master,如果是local[*],就是使用本地模式启动pyspark,其中,中括号内的星号表示需要使用几个CPU核心(core);–jars: 这个参数用于把相关的JAR包添加到CLASSPATH中;如果有多个jar包,可以使用逗号分隔符连接它们;1比如,要采用本...原创 2018-09-15 14:56:13 · 15170 阅读 · 0 评论 -
1.3RDD的设计与运行原理
此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/提供一种通用的数据抽象RDD典型的执行过程如下:RDD读入外部数据源(或者内存中的集合)进行创建; RDD经过一系列的“转换”操作,每一次都会产生不同的RDD,供给下一个“转换”使用; 最后一个RDD经“行动”操作进行处理,并输出到外部数据源(或者变成Scala集合或标量)。...原创 2018-09-15 14:16:26 · 1022 阅读 · 0 评论 -
hive -- 外部表、内部表、临时表
1.外部表关键字:EXTERNAL外部表创建时需要指定LOCATION删除外部表时,数据不被删除CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address o...原创 2018-09-14 15:36:39 · 4931 阅读 · 0 评论 -
hive简单数据分析
简单查询分析select brand_id from user_log limit 10; -- 查看日志前10数据好像也没啥,和SQL相同,,limit取前多少条 , as取别名查询条数统计分析count()聚合函数select count(*) from user_log; -- 用聚合函数count()计算出表内有多少条行数据distinct不重复se...原创 2018-09-14 20:51:55 · 1626 阅读 · 0 评论 -
hive简单操作
和sql十分类似简单计一下1、启动hive因为需要借助于MySQL保存Hive的元数据,所以,请首先启动MySQL数据库service mysql start # 可以在Linux的任何目录下执行该命令由于Hive是基于Hadoop的数据仓库,使用HiveQL语言撰写的查询语句,最终都会被Hive自动解析成MapReduce任务由Hadoop去具体执行,因此,需要启动Hadoo...原创 2018-09-14 14:33:04 · 1047 阅读 · 0 评论 -
HDFS Shell基本操作
1、目录操作hdfs dfs [命令] [命令] 等价于 hadoop fs [] []1 ./bin/hdfs dfs -mkdir -p /user/hadoop 基本操作在hadoop目录bin中hdfs 后跟dfs-mkdir 创建目录 -p代表创建多级目录2 hadoop fs -ls . "."表示当前...原创 2018-09-14 11:07:35 · 992 阅读 · 0 评论 -
Spark入门:Spark运行架构(Python版)
此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/基本概念* RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型;* DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系...原创 2018-09-10 20:47:30 · 1566 阅读 · 0 评论 -
1、Spark简介(Python版)
此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/Spark具有如下几个主要特点: 运行速度快 Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍; 容易...原创 2018-09-10 20:22:40 · 1051 阅读 · 0 评论 -
使用Spark开发应用程序,并将作业提交到服务器
1、pycharm编写spark应用程序由于一些原因在windows上配置未成功(应该是可以配置成功的)、我是在linux上直接使用pycharm,在linux的好处是,环境可能导致的一切问题不复存在111 新建一个普通python工程编程环境使用spark使用的python环境222 配置spark环境进入下图添加2个相应属性PYTHON_PA...原创 2018-09-01 14:23:58 · 1732 阅读 · 0 评论 -
Spark Core核心----RDD常用算子编程
1、RDD常用操作2、Transformations算子3、Actions算子4、SparkRDD案例实战1、Transformations算子(lazy)含义:create a new dataset from an existing on 从已经存在的创建一个新的数据集RDDA---------transformation----------->RDDB map:map...原创 2018-09-03 09:51:00 · 1554 阅读 · 2 评论 -
(3)hadoop单节点配置
hadopp版本hadoop-2.6.0-cdh5.7.0 下载地址http://archive-primary.cloudera.com/cdh5/cdh/5/同样使用flashFXP上传到linux 家文件夹下softwear下解压至app目录下tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/我的家文件夹...原创 2018-08-24 11:02:14 · 1257 阅读 · 0 评论 -
(2)hadoop之-----配置免密码登录
ssh-keygen -t rsa然后一路回车在家目录下会生成 .ssh 目录 ls -la 查看进入 。ssh cd .sshcp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 运行此命令 -----------------------...原创 2018-08-22 16:33:50 · 903 阅读 · 0 评论 -
(1)hadoop之----linux配置jdk环境
首先Linux中应有jdk包运用flashFXP上传文件,xshell连接linux系统我一般将文件放在个人目录下softwear目录 ,软件装在个人目录下app目录cd software 进入软件包目录tar -zxvf jdk-8u181-linux-x64.tar.gz -C ~/app/ 解压软件包cd ~/app/ 进入...原创 2018-08-22 16:14:47 · 787 阅读 · 0 评论 -
CentOS 6.x 系统中安装原生 Hadoop 2
本教程适合于在 CentOS 6.x 系统中安装原生 Hadoop 2,适用于Hadoop 2.7.1, Hadoop 2.6.0 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利在 CentOS 中安装并运行 Hadoop。本 Hadoop 教程由给力星出品,转载请注明。环境本教程使用CentOS 6.4 32位作为系统环境,请自行安装系统。如果...转载 2018-08-14 16:51:58 · 670 阅读 · 0 评论