
大数据
文章平均质量分 95
A记录学习路线
这个作者很懒,什么都没留下…
展开
-
大数据技术原理与应用1Hadoop、HDFS
第1讲 大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网第2讲 大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用第3讲 分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3...原创 2018-11-01 17:59:08 · 3135 阅读 · 0 评论 -
Ambari
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatal...转载 2018-12-27 21:18:22 · 234 阅读 · 0 评论 -
Spark编程基础3RDD编程、Spark SQL
第5章 RDD编程5.1 RDD编程基础5.1.1 RDD创建5.1.2 RDD操作5.1.3 持久化5.1.4 分区5.1.5 一个综合实例5.2 键值对RDDRDD编程四个元素构成RDDmapjoin操作,只有key相同时才能进行连接。刚才两个RDD中,对key相等的把它们的fast连接起来。在关系型数据库中连接操作是很普遍的。求平均值rdd.mapValues(x=x...转载 2018-12-23 16:50:23 · 2386 阅读 · 0 评论 -
Spark编程基础4Spark Streaming、Spark MLlib
第7章 Spark Streaming7.1 流计算概述7.2 Spark Streaming7.3 DStream操作概述7.4 基本输入源7.5 高级数据源7.6 转换操作7.7 输出操作7.8 Structured Streaming第8章 Spark MLlib...转载 2018-12-23 22:23:47 · 879 阅读 · 0 评论 -
数据库实验1BigInsights、HDFS、MapRedue
BIG DATA上机实验说明一、 下载实验说明文档、学习资源及实验平台从ftp://115.154.137.61/Database Theory(匿名登录)下载Bigdata.rar并解压,得到实验说明文档、学习资源及实验平台。上述内容也可从课程站点:bb.xjtu.edu.cn/数据库理论与技术(2018秋) /课程大作业中进行下载。二、 BigInsights基本实验实验目的:通过实际...转载 2019-02-16 23:07:58 · 1157 阅读 · 1 评论 -
数据库实验2Pig、Hive
4.PigExercise 1 Working with PigLab 1 Working with Pig这个练习让您有机会学习一些基本的Pig知识,以便开始熟悉这个环境。在完成这个动手实验之后,您将能够:-从Grunt shell执行Pig语句-执行Pig脚本-将参数传递给Pig脚本-加载在Pig中使用的数据给10分钟来完成这个实验。这个版本的实验室是使用InfoSpher...转载 2019-02-25 10:33:28 · 691 阅读 · 0 评论 -
数据库实验3BigSQL、Hbase
6.BigSQL 1Big SQL on Hadoop Connecting to the IBM Big SQL Server and running SQL queries.内容连接到IBM大型SQL SERVER和运行SQL查询1.1开始1.2管理大型SQL状态使用命令行1.3连接到大SQL使用JSQSH1.4连接到SQL使用ECLIPSE1.5使用BIGINSIGHTS控制...转载 2019-02-25 10:38:22 · 645 阅读 · 0 评论 -
数据库实验4HBase应用开发实验
HBase应用开发实验1Using HBase for Real-time Access to your BigDataRunning HBase operations using the Java client API内容使用JAVA客户机APIHBASE操作运行2.1 设置您的ECLIPSE环境2.2编码HBASE的JAVA类2.3运行HBASE的JAVA类2.4总结使用Ja...转载 2019-02-25 10:50:29 · 733 阅读 · 0 评论 -
数据库实验5MapReduce Prgramming实验
MapReduce Prgramming实验Source Code for WordCount v1.0From http://hadoop.apache.org/docs/stable/mapred_tutorial.html#Source+CodeWordCount.javapackage org.myorg;import java.io.IOException;import ...转载 2019-02-25 10:55:09 · 430 阅读 · 0 评论 -
数据库实验6Hbase应用开发实验Java开发
一、实验内容与完成情况:(实验具体步骤和实验截图说明)实验环境:1、 操作系统:Linux(建议Ubuntu16.04);2、 Hadoop版本:2.7.1;3、 JDK版本:1.7或以上版本;4、 Java IDE:Eclipse。实验目的:1、 理解HBase在Hadoop体系结构中的角色;2、 熟练使用HBase操作常用的Shell命令;3、 熟悉HBase操作常用的Jav...转载 2019-02-25 10:56:59 · 2085 阅读 · 0 评论 -
Spark编程基础2设计与运行原理、环境搭建和使用方法
第3章 Spark的设计与运行原理3.1 Spark概述3.1.1 Spark简介3.1.2 Scala简介3.1.3 Spark与Hadoop的比较3.2 Spark生态系统3.3 Spark运行架构3.3.1 基本概念3.3.2 架构设计3.3.3 Spark运行基本流程3.3.4 RDD的设计与运行原理3.4 Spark的部署方式第4章 Spark环境搭建和使用方...转载 2018-12-22 00:29:36 · 1199 阅读 · 0 评论 -
大数据技术原理与应用5Spark、流计算、图计算
第10讲 Spark10.1 Spark概述10.1.1 Spark简介•Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于 2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大 型的、低延迟的数据分析应用程序•2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache 软件基金会最重要的三大分布式计算系统开源项目之一(Hadoo...转载 2018-12-15 00:06:00 · 5761 阅读 · 0 评论 -
大数据技术原理与应用2之HBase
第4讲 分布式数据库HBase4.1 HBase简介4.1.1 从BigTable说起因为HBase是BigTable的一个开源实现BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题•建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2 MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准...原创 2018-11-03 18:56:03 · 1803 阅读 · 0 评论 -
大数据技术原理与应用3NoSQL数据库、云数据库
第5讲 NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB第6讲 云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6....原创 2018-11-03 23:25:47 · 2225 阅读 · 0 评论 -
大数据技术原理与应用4MapReduce、数据仓库Hive、Hadoop再探讨
第7讲 MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析:WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践第8讲 数据仓库Hive8.1 数据仓库概念8.2 Hive简介8...原创 2018-11-20 19:14:11 · 1456 阅读 · 0 评论 -
Java Scala Spark安装及配置
Java把JAVA环境变量设置到“WINDOWS系统变量"中是最简单的方式,也是对多用户环境下有利的方式。随着JAVA版本的升级、WINDOWS操作系统的升级、ECLIPSE愈加智能化。一些设置不是必须的,比如JAVA_HOME的设置。下面是有兼容性的JAVA环境变量设置方式。1.软件环境如下所示:操作系统 WINDOWS 10JAVA JDK 1.82.WINDOW环境变量对话框位...转载 2018-11-28 09:39:19 · 836 阅读 · 0 评论 -
Spark编程基础1Scala
第1章 大数据技术概述第2章 Scala语言基础2.1 Scala语言概述2.1.1 计算机的缘起2.1.2 编程范式2.1.3 Scala简介2.2 Scala基础2.3 面向对象编程基础2.4 函数式编程基础第3章 Spark的设计与运行原理第4章 Spark环境搭建和使用方法第5章 RDD编程第6章 Spark SQL第7章 Spark Streaming第8章 ...转载 2018-11-28 09:59:19 · 3166 阅读 · 1 评论 -
Spark wordcount
val file=sc.textFile(“D:/BigDataTools/helloworld.txt”)//内置对象sc,去加载一个文件//懒加载,不会立即去加载file这个文件,所以这一步文件名写错了也不会报错val rdd=file.flatMap(line=>line.split(" “)).map(word=>(word,1)).reduceByKey(+)//它...原创 2018-11-28 11:24:48 · 328 阅读 · 0 评论 -
大数据课程考试
1.Yarn每一个子模块的作用要记清楚resource模块的作用master2.最后一个章节数据挖掘的流程商业理解数据理解 对应用的采集预处理’ 制表、记录、数据清洗建模 AI选哪个模型评估过程,对建模的结果部署上线3.单选多选判断简答大数据分布式架构IBM自己的产品 sifuni中主节点叫做masternodeyarn的三个模块每个模块负责什么任务contanner是...原创 2018-12-05 10:12:57 · 2030 阅读 · 0 评论 -
ssh
ssh - 安全外壳协议SSH 为 Secure Shell 的缩写,由 IETF 的网络工作小组(Network Working Group)所制定;SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。...转载 2018-12-05 10:19:41 · 275 阅读 · 0 评论 -
IBM Platform Symphony 高效的大数据处理引擎
Platform Symphony简介简单来说,Platform Symphony 是一个提供数据分发、任务调度以及资源管理的企业级分布式计算框架,并且支持异构化的 IT 环境。Symphony 由两层架构组成,一层是负责资源管理的 EGO,另一层是任务管理的 SOAM。在 Symphony 的集群中,用户需要根据 Symphony 提供的 API 实现 Client 和 Service 程序。...转载 2018-12-12 20:26:31 · 1010 阅读 · 0 评论