
大数据
文章平均质量分 82
你的橙子
一个安静的美女子
展开
-
数据清洗【一】中文文本预处理
一、文本数据准备 使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。二、去除指定无用的符号 我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号,如果保留这些符号,在分词的时候这些符号也会被分出来,就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号: 1. 去除空格contents = ' 大家好, 欢迎一起来学习文本的空格...转载 2021-04-14 09:29:40 · 14094 阅读 · 1 评论 -
大数据【Scala】【Spark SQL】error: object read is not a member of package org.apache.spark
1. 在创建DataFrame的时候出现了一个问题scala> val df3 = spark.read.json("/usr/local/tmp_files/people.json") <console>:17: error: not found: value spark val df3 = spark.read.json("/usr/l...原创 2020-03-11 20:30:36 · 5749 阅读 · 0 评论 -
大数据【一百二十】Spark【七】-- Spark Core【七】编程案例:找到访问量最高的两个网页/ 用自定义分区实现spark分区/日志写入mysql/ 使用JDBC RDD 操作数据库
一、 需求:找到访问量最高的两个网页1. 文件:localhost_access_log.txt 192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259 192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWe...原创 2020-03-09 12:29:40 · 282 阅读 · 0 评论 -
【大数据】HBase和Hive集成版本冲突:HTableDescriptor.addFamily(/hbase/HColumnDescriptor;)V/ IDEA导入外部jar包和导出jar包
一、背景在进行Hive关联HBase的时候,在Hive上查询关联的表hive_hbase_emp_table的时候,出现了错误:【注意:查询hive上的其他表没有问题】 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop.hbase....原创 2020-01-08 13:39:51 · 1357 阅读 · 3 评论 -
【大数据】hive启动出错:NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetryException
一、背景 在启动了hdfs和yarn和hbase和zookeeper的情况下,启动hive。启动失败,出现错误: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/CommandNeedRetryException at java.lang.Cla...原创 2020-01-04 18:48:56 · 2253 阅读 · 1 评论 -
【转】大数据【一百】Hbase【十】-- HBase读写数据的详细流程及ROOT表/META表介绍
HBase读写数据的详细流程及ROOT表/META表介绍一、HBase读数据流程 1.Client访问Zookeeper,从ZK获取-ROOT-表的位置信息,通过访问-ROOT-表获取.META.表的位置,然后确定数据所在的HRegion位置; 2.Client访问HRegion所在的HRegionServer,通过HRegionServer获取需要查找的数据; 3.Clie...转载 2020-01-01 19:38:21 · 184 阅读 · 0 评论 -
大数据【九十八】Hbase【八】-- http://bigdata111:16010/连接失败,hbase shell启动后自动关于hbase
一。问题我们进行完Hbase环境搭建完成后,用命令启动hbase:【bin/start-hbase.sh --> 会在bigdata111启动HMaster,在三台主机都启动HRegionServer】注意:我们已经在Hbase-site.xml文件中添加了: <property> <name>hbase.master.info....原创 2020-01-01 16:40:00 · 912 阅读 · 0 评论 -
【转】 大数据【九十六】Hbase【六】-- HBase详解(很全面)
一、简介hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展...转载 2019-12-30 20:38:14 · 172 阅读 · 0 评论 -
【转】 大数据【九十五】Hbase【五】--HBase介绍和工作原理
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关...转载 2019-12-30 20:16:19 · 140 阅读 · 0 评论 -
【转】 大数据【九十四】Hbase【四】-- Hbase的体系结构
1. Hbase的体系结构(模型)1.1 逻辑结构(模型) 表(table) 划分数据集合的概念,和传统的db中的表的概念是一样的 行键(rowKey) 对应关系数据库中的主键,作用就是唯一标示一行记录 获取hbase中的一个记录(数据),要通过行键来获取 行键是字节数组, 任何字符串都可以作为行键 ...转载 2019-12-30 20:11:32 · 174 阅读 · 0 评论 -
【转】 大数据【九十三】Hbase【三】-- Hbase的体系结构
Hbase的介绍,Hbase的服务器体系结构遵从简单的主从服务器架构,HRegion Server群和Hbase Master服务器构成。Hbase Master服务器负责管理所有的HRegion Server,而Hbase 中所有的服务器都是通过ZooKeeper来进行协调,并处理Hbase 服务器运行期间可能遇到的错误。Hbase Master本身并不存储Hbase 中的任何数据,Hbase ...转载 2019-12-30 20:07:42 · 159 阅读 · 0 评论 -
【转】 大数据【九十二】Hbase【二】-- HBase体系架构
HBase是基于Hadoop的开源分布式数据库。体系架构为master/slave架构。主节点运行的服务称为HMaster,从节点服务称为HRegionServer,底层采用HDFS存储数据。HMaster:负责管理多个HRegionServer、恢复HReigionServer故障等。HRegionServer:负责多个区域的管理及相应客户端请求。HRegionServer还负责区域划分并...转载 2019-12-30 20:03:04 · 121 阅读 · 0 评论 -
大数据【八十九】Azkaban【二】-- Azkaban安装部署
一。 Azkaban下载地址下载地址:http://azkaban.github.io/downloads.html二。 安装前准备 1. 将Azkaban Web服务器、Azkaban执行服务器、Azkaban的sql执行脚本及MySQL安装包拷贝到bigdata111虚拟机/opt/software目录下 azkaban-web-server-2.5.0.tar.gz...原创 2019-12-27 15:16:18 · 418 阅读 · 1 评论 -
大数据【八十六】Sqoop【一】-- 概述/ 原理/ 安装配置/ Sqoop的导入和导出
一、Sqoop简介(一)简介 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。【可以理解为一种数据搬运工具】 Sqoop(发音:skup)是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,主要用于在H...原创 2019-12-17 21:57:24 · 409 阅读 · 0 评论 -
【转】大数据【七十九】hadoop搭建时为什么最好重新编译源码的原因
一般hadoop需要在自己的linux环境下重新将源代码编译一下,为什么hadoop要自己再次编译一下,网上很多都是说:官网提供编译好的只有32位的,没有提供64位的,其实这种解释是错的。官网可下载的也有编译好的64位。1。那为什么要大费周折的重新编译?主要是要重新编译本地库(Native Libraries) 代码(Linux下对应[.so]文件,window下对应[.dlI]文件...转载 2019-12-07 16:37:05 · 408 阅读 · 0 评论 -
【转】大数据【六十八】Linux_Mysql【五】-- JDBC详细介绍
一。前言 笔者花了一整天的时间仔细研究了JDBC的使用,内容很充实,代码都经过了验证。如果你能够仔细阅读完这篇文章,JDBC的相关知识我想你一定会有所掌握。在阅读的过程中,有任何不理解的地方都欢迎留言讨论。二。JDBC介绍 JDBC(Java DataBase Connectivity)是Java和数据库之间的一个桥梁,是一个规范而不是一个实现,能够执行SQL语句。它由一组用J...转载 2019-11-18 20:17:56 · 195 阅读 · 0 评论 -
【转】大数据【六十二】Hive【三】-- hive教程【hive架构和工作原理】
HadoopHadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。 MapReduce:它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。 HDFS:Hadoop分布式文件系统是Hadoop的框架的一部分,用于存储和处理数据集。它提供了一个容错文...转载 2019-11-16 12:17:32 · 126 阅读 · 0 评论 -
大数据【六十】Linux_Mysql【一】-- 安装配置/ 服务、密码、登录权限命令 / 连接数据库客户端 / 登录和退出MySQL服务
一。安装包1.官网下载地址:https://dev.mysql.com/downloads/file/?id=4715032. 二。安装步骤1.检测本地是否有mysql已存在的包 :rpm -qa | grep mysql2.检测本地是否有mariadb已存在的包 :rpm -qa | grep mariadb3.如果存在mariadb,则使...原创 2019-11-14 20:52:38 · 154 阅读 · 0 评论 -
【转】大数据【五十九】Map Reduce中的排序
一。排序的分类排序贯穿于Map任务和Reduce任务,是MapReduce非常重要的一环,排序操作属于MapReduce计算框架的默认行为,不管流程是否需要,都会进行排序。在MapReduce计算框架中,主要用到了两种排序方法:快速排序和归并排序快速排序: 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据比另外一部分的所有数据都小,然后再按此方法对这两部分数据...转载 2019-11-10 18:29:20 · 911 阅读 · 0 评论 -
【转】大数据【五十八】探索MapReduce过程及分组详解
一。问题一直对MapReduce的分区和分组理解的比较模糊和不确定。这次又遇到reduce输出结果跟自己预想的不一样的情况,因此决定深入进去操作一下各种情况的结果,争取理清楚分组、分区的关系。以前的认识我一直以来对MapReduce的分区和分组有一个自己的理解。分区:如果不自定义分区类,而使用默认分区时,采取的是对键进行哈希操作,并与reducetask任务数取余,根据得到的值进行...转载 2019-11-09 22:51:07 · 1373 阅读 · 0 评论 -
大数据【五十】- Flume【四】 :Flume拦截器---自定义拦截器
一。自定义拦截器过程1. 实现接口Interceptorimport org.apache.flume.interceptor.Interceptor;public class MyInterceptor implements Interceptor{}2. 重写Inteceptor接口中的方法:代码运行顺序:initialize() --> intercept(E...原创 2019-11-20 17:06:59 · 378 阅读 · 0 评论 -
大数据【五十二】【转】MapReduce的shuffle过程详解(分片、分区、合并、归并。。。)
一。shuffle过程(一)shuffle概念 shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。 其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为...转载 2019-10-23 21:12:26 · 1176 阅读 · 2 评论 -
大数据【五十一】【转】MapReduce 数据倾斜原因和解决方案
一。MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1. MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2. MapReduce是一个并行计算与运行软件框架(Software Fr...转载 2019-10-23 18:33:46 · 250 阅读 · 0 评论 -
大数据【二】- VMware Linux虚拟机IP网络配置
环境: Linux 虚拟机 , NAT 模式一。前提我电脑原来的Linux虚拟机IP的设置是按照【以太网】这个IP 来设置的。然后很顺利的就给虚拟机连上网络了。但是......,有一天电脑 的网线插口被我弄坏了,于是就买个一个USB的网线插口,也就是【以太网2】. 然后悲剧的我的虚拟机就连不上网了,尝试了很多的办法,依然没有用。绝望.jpg。 后来终于弄好了....二。...原创 2019-07-02 18:30:17 · 227 阅读 · 0 评论 -
大数据【十三】Hadoop多个虚拟机运行start-dfs.sh和start-yan.sh出现问题 / no nodemanager to stop的问题
一。问题当时启动了XShell的功能,然后我一共有三个虚拟机: bigdata111和bigdata112和bigdata113. 是完全分布式构造。其中NameNode在bigdata111上,ResrouceManager在bigdata112上。开启虚拟机后,我在三台虚拟机上都输入了命令:【# start-dfs.sh】,然后查看jps,如下图所示,没有什么问题。然后我继...原创 2019-07-23 21:05:35 · 2772 阅读 · 0 评论 -
大数据【二十九】Map-Reduce框架原理【十一】:Shuffle【四】-- 两表合并案例(Map端和Reduce端表合并)/hadoop中迭代器的对象重用问题
一。MapReduce中多表合并案例(一)需求用Reduce两张表加载到一张表中。例如将下面两张表变成:【1101 小米 1】,早order表中用【小米】替代【01】(二)源文件(三)两种不同的实现方式1)Map端表合并(Distributedcache)1.思路适用于关联表中有小表的情形;可以将小表分发到所有的map节点,这样,map节点就可以在本...原创 2019-12-30 12:15:53 · 371 阅读 · 0 评论 -
大数据【三十三】Map-Reduce框架原理【十四】: Join多种应用-- Reduce join/Map join(Distributedcache分布式缓存)
一。 Reduce join1)原理:Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。Reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开,最后进行合并就ok了。...原创 2019-12-30 12:14:05 · 156 阅读 · 0 评论 -
大数据【五十五】【转】Haoop基础类【四】hadoop InputFormat详解/ RecordReader/InputSplit
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/zpcandzhj/article/details/45771933参考这几篇文章:http://blog.youkuaiyun.com/chlaws/article/category/2167033一。 概述我们在设置MapReduce输入...转载 2019-09-30 20:33:17 · 182 阅读 · 0 评论 -
大数据【五十六】【转】自定义 hadoop MapReduce InputFormat 切分输入文件
一、原理:InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢?InputFormat其实是一个接口,包含了两个方法:public interface InputFormat<K, V> { InputSplit[]getSplits(JobConf job, int numSplits) throws IOExcept...转载 2019-09-30 20:46:35 · 256 阅读 · 0 评论 -
大数据【五十四】【转】Hadoop系列之InputFormat,OutputFormat用法
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/u011734144/article/details/60773786-----------------------------------------------------------------------------------...转载 2019-10-03 09:35:35 · 163 阅读 · 0 评论 -
大数据【五十三】【转】MapReduce之RecordWriter理解
RecordWriter:其实主要就是负责将task的key/value结果写入内存或者磁盘一 方法分析1.1 write:写key/value键值对1.2 close: 关闭RecordWriter二 RecordWriter运行流程分析2.1 Map Task Record Writer运行流程分析#Map Task#runNewMapper会根据是否当前程序需要...转载 2019-10-03 11:26:09 · 362 阅读 · 0 评论 -
大数据【四十七】- Flume【一】 :概述/ 作用/ 结构/ 数据类型/ 传输过程/ 传输过程/ 案例(监控端口数据、实时读取本地文件到HDFS、实时读取目录文件到HDFS)
一、Flume简介1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。2) Flume基于流式架构,容错性强,也很灵活简单。参考: 大数据架构中的流式架构和Kappa架构 流式架构/反应式编程(Reactive Architecture/Programming) 流式架构在大数据中应用十分广泛,...原创 2019-11-07 21:50:06 · 1076 阅读 · 2 评论 -
大数据【五十七】【转】为什么需要flume以及flume的原理
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_26442553/article/details/79032805--------------------------------------------------------------------------1.为什么要...转载 2019-10-09 16:42:58 · 815 阅读 · 0 评论