战思宇-优快云博客

原创 python快速入门

Python快速入门一、准备工作1.1 安装1.2 Notebook快捷键1.3 修改文件存储路径二、Python基础2.1 初识Python2.2 数值运算2.2.1 基本运算2.2.2 常用类型2.2.2类型转换2.2.3 函数2.2.4 字符串操作一、准备工作1.1 安装安装 Anaconda3安装第三方库：方法一：pip install xxx.whl方法二：conda in...

2020-01-19 20:00:23 397

原创 Scala——6. Scala面向对象编程

ScalaWindows安装Scala编译器Linux安装Scala编译器cd /export/servers/rz scala-2.11.8.tgztar -zxvf scala-2.11.8.tgzvim /etc/profileexport SCALA_HOME=/export/servers/scala-2.11.8export PATH=$PATH:$SCALA_HOM...

2019-06-29 21:30:14 300

原创 Scala——5. Scala List练习

Scalascala> def ff1(x:Int) = x*10ff1: (x: Int)Intscala> ff1(3)res33: Int = 30scala> def ff2(f:(Int,Int)=>Int) = f(2,5)ff2: (f: (Int, Int) => Int)Intscala> val f2 = (x:Int,y...

2019-06-29 21:29:37 622

原创 Scala——4. Scala collection

注意：通常我们在创建一个集合时会用val这个关键字修饰一个变量（相当于java中的final），那么就意味着该变量的引用不可变，该引用中的内容是不是可变，取决于这个引用指向的集合的类型。1. 映射 MapMap分为可变map和不可变Map 默认情况下是不可变Map不可变Map不能添加、修改、删除键值对p定义格式： val m1 = Map...

2019-06-29 21:27:56 396

原创 Scala——3. Scala数据Array

1. 数组定义Array 长度固定ArrayBuffer 长度可变如果提供初始值时可不使用new，底层会直接调用apply方法定常数组Arrayval a1 = Array(元素1, 元素2, …) 不需要new，底层调用apply()帮我们newvar a2 = new Array[元素类型](数组长度)变长数组使用前需要导包 import scala.collecti...

2019-06-29 21:27:10 416

原创 Scala——2. Scala基础

1. 声明变量、常量var 声明变量格式：var 常量名 : 类型 = 值val 声明常量格式：val 常量名 : 类型 = 值 2. 常用类型Any ：是所有类的超类，相当于 Java 中的 Object，AnyVal 和 AnyRef 是它的两个子类AnyVal ：是所有值类型的基类，它描述的是值，而不是代表...

2019-06-29 21:26:35 267

原创 Scala——1. Scala简介&安装

ScalaWindows安装Scala编译器Linux安装Scala编译器cd /export/servers/rz scala-2.11.8.tgztar -zxvf scala-2.11.8.tgzvim /etc/profileexport SCALA_HOME=/export/servers/scala-2.11.8export PATH=$PATH:$SCALA_HOM...

2019-06-29 21:24:30 212

原创阿里云大数据ACA考点总结

数加：阿里云大数据平台，包含了一系列的大数据产品及服务DataV制作的可视化大屏，根据受众与应用场景不同，分成展示类、分析类、监控类三类。

2019-06-20 18:52:57 7901 3

job.setNumReduceTask(3); // 默认1个reducetask，这里改成3个在mr程序中，reducetask的个数和最终输出文件的个数有对等的关系默认情况下，mr程序只有一个reducetask，所以输出文件是一个，但是可以通过代码手动指定reducetask个数。job.setNumReduceTask(n); n为几，reducetask个数就是几，对应的输出文件...

2019-06-18 09:37:23 319

原创 hadoop第二天——5. MapReduce编程规范及示例编写

五、MapReduce编程规范及事例编写从开发层面来看类1继承Mapper类2继承reducer主程序入口main把上述三个类打成jar包就构成了MapReduce程序。从运行层面看MRAppMaster：程序内部的管理者，负责内部的调度协调MapTask：就是map阶段运行的任务，所对应代码层面就是上述类1ReduceTask：就是reduce阶段运行的任务，所对应代码层面就...

2019-06-17 15:35:57 334

原创 hadoop第二天——4. 初识MapReduce

四、MapReduce理解MapReduce针对复杂的大任务，尝试进行拆分成若干个小任务，并行处理提高效率，最终再合并结果。先分再合、分而治之分：针对没有依赖关系的任务，可以拆分的任务进行划分，分成小的任务。之所以进行拆分，原因可以并行计算提高执行效率合：对map阶段的结果进行全局汇总MapReduce是一个分布式运算程序的编程框架。Hadoop MapReduce设计构思如何面...

2019-06-17 08:54:57 443

原创 hadoop第二天——3. HDFS基本原理

三、HDFS基本原理namenode职责：1.管理文件系统的元数据信息（文件系统的目录树、文件和块的对应信息、位置信息）2.管理众多的datanode（健康状态、磁盘使用率）namenode成了hdfs对外访问的唯一路径，任何请求都是向namenode发起的三副本机制查看BlockPlacementPolicyDefault.java源码，不同版本机制不一样。hdfs扩展知识机架感...

2019-06-17 08:53:28 241

原创 hadoop第二天——2. HDFS的应用开发（JAVA API操作）

二、HDFS的应用开发HDFS的JAVA API操作- 配置环境变量（HADOOP_HOME、path）因为在windows上做HDFS客户端应用开发，需要设置Hadoop环境，而且要求是windows平台编译的Hadoop，否则会报“找不到winutils.exe”的错误。- 搭建开发环境（创建maven工程，引入pom依赖）方案一，使用cdh仓库的依赖：<repositories> <repository> <id>cloudera</id>

2019-06-17 08:53:07 488

原创 hadoop第二天——1. HDFS入门

一、HDFS入门HDFS：Hadoop Distribute File System Hadoop分布式文件系统1. 底层设计思想如何解决大数据存储不下的问题？分布式存储如何解决分布式存储浏览文件便捷的问题？元数据管理，记录文件对应信息如何解决数据过大上传下载耗时的问题？分块存储如何解决机器故障导致数据丢失的问题？副本机制如何方便用...

2019-06-17 08:52:45 318

原创 hadoop第一天——7. Hadoop集群启动、初体验

七、Hadoop集群启动、初体验1. 启动方式要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个集群。注意：首次启动 HDFS 时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的 HDFS 在物理上还是不存在的。hdfs namenode–format 或者 hadoop namenode –format单节点逐个启动脚本一键启动2. 集群w...

2019-06-16 13:27:24 311

原创 hadoop第一天——6. Hadoop集群搭建

六、Hadoop集群搭建Hadoop发行版本分为开源社区版和商业版。社区版（官方版本）：Apache软件基金会维护的版本最新功能最全兼容性最不和商业版：商业公司基于社区版进行商业化分析（CDH）兼容性好版本略低2. 集群简介- 主从集群：常见的一主多从主角色：master leader从角色：slave follower主从各司其职，从角色受到主角色的约束。主角色挂了，整个服务不可用，叫做单点故障。- 主备集群：解决单点故障常见的是一主一备主角色：active备角色：sta

2019-06-16 13:25:51 326

原创 hadoop第一天——5. Apache Hadoop简介

五、Apache HadoopHadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。1. Hadoop2.0的核心组件HDFS（分布式文件系统）：解决海量数据存储YARN（作业调度和集群资源管理的框架）：解决资源任务调度MAPREDUCE（分布式运算...

2019-06-15 14:05:55 342

原创 hadoop第一天——4. 大数据分析系统

四、大数据分析系统按照数据的流转流程，把数据分析中各个模块连接起来就构成了大数据系统。模块包括：数据采集（收集）数据存储数据计算数据分析数据应用此外会根据数据的时效性，从产生到具体应用之间的时间间隔，分为离线计算、实时计算。离线计算（处理）：处理历史数据，面向过去分析，称之为批(batch)处理。实时计算（处理）：处理当下实时产生的数据，称之为流(stream)式处理。...

2019-06-15 12:16:35 885

原创 hadoop第一天——2. 科技发展带来的挑战 & 3. 大数据时代

三、大数据时代大数据：针对海量数据的处理（存储和计算）云计算：硬件资源的虚拟化，为大数据的处理提供计算的硬件资源3.1 概述大数据的4V特征：- Volume 数据体量巨大- Velocity 处理速度快- Variety 数据类型繁多- Value 价值密度低- 相关技术- 云技术- - 私有云

2019-06-15 12:10:27 264

原创 hadoop第一天——1.数据分析

二、科技发展带来的挑战网站结构的变迁：从单机迈向了高可用，从而引出了分布式概念海量数据处理的场景 - 海量数据如何存储：分布式存储 - 海量数据如何计算：分布式计算2.1 分布式系统概述分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统。简单来说就是一群独立计算机集合共同对外提供服...

2019-06-15 11:54:38 327

原创 vim编辑器使用

1.三种模式：命令模式、输入模式、底行模式

2019-06-12 21:45:17 187

原创 linux出现提示：You have new mail in /var/spool/mail/root

当我们在linux执行命令时，有时会出现提示：You have new mail in /var/spool/mail/root解决办法：配置环境变量1. 编辑配置文件vim /etc/profile2. 添加内容unset MAILCHECK3. 刷新环境变量source /etc/profile此后，不再出现此提示了。...

2019-06-12 16:50:39 3858

原创 linux修改时间时区及语言

如果linux使用的是默认的时间时区和语言，会与我们的中文环境不符，可以按照以下步骤进行修改。

2019-06-10 19:54:39 1306

zsy