- 博客(20)
- 收藏
- 关注
原创 吴恩达神经网络第一课学习笔记
什么是神经网络? 神经网络是上个世纪出现的产物,其思想就是模拟人体神经网络的方式来实现机器的自主学习。他在许多领域都会有使用,例如:语音识别、图像识别、语言翻译等。
2017-11-15 14:49:31
665
2
原创 hadoop2.x之IO:基于文件的数据结构
备注 二进制文件广义上讲是所有文件(在物理上所有文件都是二进制编码)。狭义上是指文本文件以外的文件 。而文本文件又是指ASCII或unicode编码的文件,二者在物理上没有本质的区别,只是逻辑上的概念。所以二进制文件在这里指的是所有文件。Hadoop主要处理日志文件,其中每一行文本代表一条日志记录。在MapReduce的数据处理中,处理结果是用key-value的格式传递给下一过程的。我
2017-08-13 09:54:20
401
原创 hadoop2.x之IO:序列化
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。 反序列化是指将字节流转回结构化对象的逆过程。假设我们创建了一个类People,里面两个属性:name和age。在我们JVM没有关闭且该实例没有销毁的时候,我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销毁的时候,我们将无法再使用该实例了。 而序列化实际上就是将其存储起来,例如:以JSON存储成文件,或者X
2017-08-13 09:43:38
386
原创 hadoop2.x之IO:MapReduce压缩
前面我们说到了hadoop的压缩,在Hadoop所运行的数据一般都是很大的,输入的数据很大,输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。如果我们想对Reduce进行压缩,有两种方法,一种是配置使用Configuration配置。另一种是还是用FileOutputFormat类对输出进行设置。1. 对Reduce进行压缩(使用Configuration)使用Configu
2017-08-13 09:33:26
316
原创 hadoop2.x之IO:压缩和解压缩
文件压缩可以降低存储需要的空间,并且在传输过程中加快传输速度。因此对于大量数据的处理时,压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。 有许多压缩方式,如下: 压缩格式 工具 算法 文件拓展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2
2017-08-13 09:18:50
1463
原创 hadoop2.x之HDFS
1.HDFS简介HDFS(有时也成为DFS)是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上 例如:现在有一个200GB的文件,我们有5台电脑,每台存储为100GB,所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区(就是切割成好几块)然后将它分别存储在各个主机上(每个电脑存储40GB的)。这就是HDFS的原理。1. HDFS的特性HDFS的优势:超大文件存储 HD
2017-07-27 10:45:09
778
原创 hadoop2.x入门:在windows上用Eclipse编写程序
虽然有许多人推崇vim编程,但是本人并不习惯vim编程,本人还是比较在window下使用eclipse编程。另外由于本人linux安装的都是最小化安装,没有图形界面,因此使用windows的eclipse编写mapreduce程序远程发送至linux的hadoop下运行。默认已经在linux上装好了Hadoop并且在windows上安装了Eclipse环境1. 在windows上搭建Hadoop环境
2017-07-26 09:47:11
484
原创 hadoop2.x入门:编写mapreduce对气象数据集求每日最高气温和最低气温
1.下载气象数据集气象数据集下载地址为: - ftp://ftp.ncdc.noaa.gov/pub/data/noaa我们下载国内的气象数据,使用下面命令进行下载wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/5*国内气象站ID区间为50001-59998详细的可以在《19
2017-07-23 19:30:04
4594
4
原创 hadoop 2.x安装:不能加载本地库 - 解决libc.so.6 version GLIBC_2.14 not found问题
解决libc.so.6 version GLIBC_2.14 not found问题
2017-07-23 10:13:06
1391
原创 hadoop 2.x安装:完全分布式安装
1. 安装环境本文使用三台CentOS6.4虚拟机模拟完全分布式环境。 前五个过程和hadoop1.x安装相同1.1. 安装环境 项目 参数 主操作系统 Windows 10 64 bit,8GB内存 虚拟软件 VMware® Workstation 12 Pro 12.5.2 虚拟机操作系统 CentOS6.5 64位 512MB内存 虚拟机数量 3 j
2017-07-22 20:52:24
669
原创 linux使用:解决克隆虚拟机后UP BROADCAST RUNNING MULTICAST问题
linux使用:解决克隆虚拟机后UP BROADCAST RUNNING MULTICAST问题
2017-07-21 16:41:36
8469
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人