
大数据与云计算
hrbeuwhw
这个作者很懒,什么都没留下…
展开
-
Hadoop安装部署
1. Hadoop安装部署1.1. 机器说明总共4台机器:test161.sqa,test162.sqa, test163.sqa,test164.sqaIP地址分别为:192.168.207.161 …… 192.168.207.164操作系统:Redhat Linuxroot用户密码:hello123test161.sqa(192.168.207.161)作为namen转载 2012-11-15 18:17:06 · 685 阅读 · 0 评论 -
Hadoop之HDFS文件读写过程
一、HDFS读过程 1.1 HDFS API 读文件 [java] view plain copyConfiguration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = ...转载 2018-03-18 21:36:04 · 578 阅读 · 0 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2018-03-11 21:11:06 · 536 阅读 · 0 评论 -
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源性能尽量进行优化。基础优化这部分...转载 2018-03-10 22:31:24 · 202 阅读 · 0 评论 -
Spark性能优化指南:高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...转载 2018-03-10 22:25:00 · 332 阅读 · 0 评论 -
Spark性能优化指南:基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...转载 2018-03-10 22:23:56 · 191 阅读 · 0 评论 -
Spark性能调优之代码方面的优化
Spark性能调优之代码方面的优化1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(cache,persist,checkpoint)如何选择一种最合适的持久化策略? 默认MEMORY_ONLY, 性能很高, 而且不需要复制一份数据的副本,远程传送到其他节点上(BlockManager中的Bl...转载 2018-03-10 21:13:15 · 393 阅读 · 0 评论 -
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-03-07 21:29:23 · 264 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月。声明:本文于2012年便早已附上所有参考链接,并注明是篇“学习笔记”,且写明具体参考了pluskid等人的文转载 2018-01-09 10:02:02 · 448 阅读 · 0 评论 -
Shell date 命令详解
格式: date [选项] ... [+格式]选项说明: -d ,--date=字符串 显示指定字符串所描述的时间格式说明: 例子1:#!/bin/bash##1. 获取当前系统时间 YYYY-MM-DD HH:MM:SSv_time_eq=`date "+%F %T"`v_time=`date "+%Y-%m-%d %H:%M:%S"`...转载 2018-08-22 19:04:24 · 16495 阅读 · 1 评论