
大数据
java___boy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
6、hadoop上命令行查看lzo、gz、bz文件
hadoop上命令行查看lzo、gz、bz文件发表于2019-03-25|分类于hadoop||游览806hadoop上命令行查看lzo、gz、bz文件HDFS上的文件可能是压缩的,所以用cat不能直接查看。hadoop上默认支持lzo、gz、bz2、snappy压缩格式。我们用命令行查看HDFS上压缩文件,也是可以的。lzo文件查看 HDFS 上 ...原创 2019-11-21 10:58:37 · 3046 阅读 · 0 评论 -
5、在Yarn上运行Spark-Shell和Spark-SQL命令行
如果你已经有一个正常运行的Hadoop Yarn环境,那么只需要下载相应版本的Spark,解压之后做为Spark客户端即可。需要配置Yarn的配置文件目录,export HADOOP_CONF_DIR=/etc/hadoop/conf 这个可以配置在spark-env.sh中。运行命令:cd $SPARK_HOME/bin./spark-shell \--master yarn-...转载 2019-10-18 11:02:16 · 587 阅读 · 0 评论 -
4、Spark中application、job、stage、tast之间的关系详解
SparkControlProcesses Driver Application entry point that contains the SparkContext instance Master In charge of scheduling and resource orchestrationWorker Responsibl...原创 2019-10-15 13:56:31 · 1285 阅读 · 3 评论 -
3、Spark运行原理解析一
一、Spark核心API----------------------------------------------------------------------------------------------[SparkContext]:连接到Spark集群,入口点[HadoopRDD]:读取Hadoop上面的数据[RDD]:弹性分布式数据集 不可...原创 2019-10-15 09:46:38 · 191 阅读 · 0 评论 -
2、Spark基础知识学习
1、弹性分布式数据集(RDD):如下图所示,对于Spark而言,每次MR完成,会将结果存在分布式内存当中,从而节省在IO上花费的时间 迭代操作 交互操作 2、处理数据倾斜 现象:reduceBykey的时候,由于很多key是相同的,所以无论节点开启的是多少,总会有那么几台节点机器的压力非常大...原创 2019-10-14 10:05:17 · 147 阅读 · 0 评论 -
1、Spark学习:spark-shell和spark-submit的区别及各自工作
一、异同 1、相同点:放置的位置都在/spark/bin目录下面 2、不同点: (1)、spark-shell本身是交互式的,dos界面上会提供一种类似于IDE的开发环境,开发人员可以在上面进行编程。在运行时,会调用底层的spark-submit方法进行执行。 (2)、spark-submit本身不是交互性的,用于提交在IDEA等编辑器中编译并打...原创 2019-09-25 10:23:13 · 1387 阅读 · 0 评论 -
大数据1:云计算:PAAS、IAAS和SAAS之间的区别
1.IAAS: 用户通过Internet 可以从完善的计算机基础设施获得服务。这类服务可以称为基础设施即服务。2.PAAS:提供了用户可以访问的完整或部分的应用程序开发,这类服务可以称为平台即服务。3.SAAS:提供了用户可以访问的完整的可直接使用的应用程序,这类服务可以称为软件即服务。IAAS: Infrastructure-as-a-Service(基础设施即服务),有了...原创 2019-08-05 10:33:43 · 1884 阅读 · 0 评论 -
查看Linux下所配置工程的相关信息
Hadoop相关1、查看hadoop的版本号:hadoop versionSpark相关1、查看spark的版本号:运行spark-shell并进入相应Dos界面,就能查看对应的spark和scala版本号Linux相关1、查看某文件夹下面文件的大小 du -h 查看当前文件夹所有文件大小 du -h + 文件夹路径 查看对应文件夹所有文件...原创 2019-10-14 15:39:15 · 131 阅读 · 0 评论 -
1、在eclipse或者idea下面调用hadoop接口开发hadoop应用程序
方式一、首先为hadoop和eclipse创建类似于(tomcat和eclipse的插件关系):具体而言, 首先将于安装好的hadoop版本一致的hadoop-eclipse-xxx.jar拷贝到eclipse的plugins里面,重启eclipse并发现windows/preference下面多了hadoop map/Reduce选项(插件,可以用来链接到本机配置的hadoop,...原创 2019-08-06 17:03:47 · 237 阅读 · 0 评论 -
Hadoop命令行运行自己生成的jar包
hadoop jar /path/wordcount.jar(输入参数是两条路径) /fileAlready.txt /countResultFolder原创 2019-08-20 15:40:33 · 1360 阅读 · 0 评论