大数据
谪仙逍遥
此人很勤快,就写了个广交朋友
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
集群部署
原创 2020-01-07 15:56:18 · 272 阅读 · 0 评论 -
大数据离线项目案例
离线项目总共包括以下部分:1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例,请先阅读数据说明,再做相应题目。原始数据:qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ2...原创 2020-01-07 12:34:49 · 819 阅读 · 0 评论 -
大数据------MapReduce中,Map类 压缩文件中 InputSplit()作用
了解inputSplitHadoop将MapReduce的输入数据划分成等长的小数据块,称为输入分片(input split)或简称为“分片”。Hadoop为每个分片构建一个map任务,并由该任务来运行用户自定义的map函数从而处理分片中的每条数据。getSplits()负责将文件切分成多个分片(InputSplit),但InputSplit并没有实际切分文件,而只是说明了如何切分数据,也就是...原创 2019-11-26 15:47:43 · 305 阅读 · 2 评论 -
大数据 --分布式计算框架MapReduce介绍
Hadoop组成Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。 Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。 Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。 什么是计算框架? 是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。...原创 2019-11-20 09:53:51 · 908 阅读 · 1 评论 -
大数据----使用MapReduce【1】
偏移量:指的是每行行首字母移动到文本的最前面需要一定的字符MapReduce的数据类型LongWritable 长整型IntWritable 整型DoubleWritable 双字节数值FloatWritable 浮点型Text 文本BooleanWritable 布尔型数值POM文件【配置文件】<?xml version="1.0" encoding="UTF-8"?&...原创 2019-11-20 09:36:34 · 326 阅读 · 2 评论 -
大数据-Apache Hive【2】
1 Hive与传统数据库对比hive用于海量数据的离线数据分析。hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析。更直观的对比请看下面这幅图: 2 Hive 数据模型Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:db:在hdfs中表现...原创 2019-11-20 09:20:18 · 810 阅读 · 2 评论 -
大数据-----Apache Hive【1】
一、Apache Hive1.Hive 简介1.1.什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高。1.2.为什么使用Hive直接使用Hadoop MapReduce处理数据所面临的问题:人员...原创 2019-11-20 09:16:15 · 919 阅读 · 1 评论 -
大数据小笔记——Hadoop入门(上)
Hadoop是什么?——Hadoop是一个适合大数据的分布式存储和计算平台。Hadoop的起源——Hadoop最早起源于lucene下的Nutch,Hadoop这个名字不是一个缩写,而是一个虚构的名字,是由Hadoop之父Doug Cutting的孩子给一个棕黄色的大象玩具命名的。所以Hadoop的标志也就是一头棕黄色的大象。Hadoop的三大核心组件————————————————...原创 2019-11-19 09:12:31 · 816 阅读 · 2 评论 -
大数据 之 谜 之 低级bug
java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, recieved org.apache.hadoop.io.Textat org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.jav...原创 2019-11-15 18:07:07 · 987 阅读 · 2 评论 -
大数据 ---分布式并行计算框架MapReduce
分布式并行计算框架MapReduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。游戏中,目标是计算每组纸条中每个图形的总个数。一共八个步骤,每个步骤都是计算的一部分,是框架的一部分。MapReduce计算框架分布式并行计算框架一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算。大数据为什快横向扩展移动程序到数据端多个数据副本分布式存储(...原创 2019-11-14 11:02:41 · 2087 阅读 · 4 评论 -
大数据------namenode故障恢复
secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先将namenode的fsimage与edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将secondaryNamenode当中的fsimage与edits拷贝...原创 2019-11-14 10:40:22 · 716 阅读 · 2 评论 -
大数据---最基本的项目流程(生动形象的比喻)
把大数据项目的流程看作是西红柿炒鸡蛋种植西红柿 养只老母鸡 原料生产 数据生产2.采摘西红柿 捡鸡蛋 ...原创 2019-11-14 10:34:28 · 875 阅读 · 2 评论
分享