- 博客(7)
- 收藏
- 关注
原创 Spark学习记录
一、下载安装网址:https://www.scala-lang.org/download/二、压缩包传输!put D:\用户目录\我的文档\Tencent Files\1446989230\FileRecv大数据软件\scala-2.12.8.tgzput D:\用户目录\我的文档\Tencent Files\1446989230\FileRecv大数据软件\spark-2.4.3-bi...
2019-05-22 18:26:36
257
原创 Hive学习记录
一、安装Mysql(1)在Windows下进行下载Mysqlhttp://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm(2)将压缩包从Windows传输到Linux当前目录下:put F:\大数据软件\mysql-community-release-el7-5.noarch.rpm(3)解压:rpm -ivh mys...
2019-05-22 18:12:27
262
原创 HBase的学习记录
一、下载安装网址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/二、安装解压(1)将压缩包从Windows传输到Linux当前目录下SecureCRT 【File】→【Connect SFTP Session】开启sftp操作put E:\大数据软件\hbase-1.4.9-bin.tar.gzput ...
2019-05-22 18:04:02
287
原创 MapReduce学习记录
一、什么是MapReduce?概念"Map(映射)“和"Reduce(化简)”,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一...
2019-05-22 17:14:15
223
原创 HDFS学习记录
一、HDFS介绍Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读...
2019-05-22 16:53:59
188
转载 后羿采集器学习记录
后羿采集器学习记录1、什么是“网络爬虫”?简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。2、未来发展趋势对于这种趋势,一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。这场对抗爬虫的常规战眼看就要升级...
2019-05-22 16:17:39
13057
原创 JDK+Hadoop安装配置、单机模式配置、伪分布式、完全分布式配置相关实验报告!
一、什么是Hadoop?是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high...
2019-05-22 15:53:20
658
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅