准字号岳父大人-优快云博客

原创 Spark学习记录

一、下载安装网址：https://www.scala-lang.org/download/二、压缩包传输！put D:\用户目录\我的文档\Tencent Files\1446989230\FileRecv大数据软件\scala-2.12.8.tgzput D:\用户目录\我的文档\Tencent Files\1446989230\FileRecv大数据软件\spark-2.4.3-bi...

2019-05-22 18:26:36 257

原创 Hive学习记录

一、安装Mysql（1）在Windows下进行下载Mysqlhttp://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm（2）将压缩包从Windows传输到Linux当前目录下:put F:\大数据软件\mysql-community-release-el7-5.noarch.rpm（3）解压：rpm -ivh mys...

2019-05-22 18:12:27 262

原创 HBase的学习记录

一、下载安装网址：https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/二、安装解压（1）将压缩包从Windows传输到Linux当前目录下SecureCRT 【File】→【Connect SFTP Session】开启sftp操作put E:\大数据软件\hbase-1.4.9-bin.tar.gzput ...

2019-05-22 18:04:02 287

一、什么是MapReduce？概念"Map(映射)“和"Reduce(化简)”，和他们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(化简)函数，用来保证所有映射的键值对中的每一...

2019-05-22 17:14:15 223

原创 HDFS学习记录

一、HDFS介绍Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读...

2019-05-22 16:53:59 188

转载后羿采集器学习记录

后羿采集器学习记录1、什么是“网络爬虫”？简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。2、未来发展趋势对于这种趋势，一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别，而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。这场对抗爬虫的常规战眼看就要升级...

2019-05-22 16:17:39 13057

原创 JDK+Hadoop安装配置、单机模式配置、伪分布式、完全分布式配置相关实验报告！

一、什么是Hadoop？是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high...

2019-05-22 15:53:20 658

YangGuangJieFei的博客