
大数据
东语~
这个作者很懒,什么都没留下…
展开
-
解决问题 Sqoop No statements may be issued when any streaming result sets are open and in use
sqoop 执行import或者export时候,出现错误。Sqoop No statements may be issued when any streaming result sets are open and in use原创 2023-09-13 15:45:08 · 469 阅读 · 0 评论 -
Container is running beyond memory limits
Hadoop环境中,执行MapReduce程序或者Hive 任务时候,任务执行失败,提示内存不足。原创 2023-09-08 14:31:34 · 585 阅读 · 0 评论 -
大数据Hive的beyond the ‘VIRTUAL‘ memory limit
解决hive beyond the ‘VIRTUAL’ memory limit. Current usage: 106.1 MB of 1 GB physical memory used; 2.3 GB of 2.1原创 2022-06-29 12:57:26 · 732 阅读 · 0 评论 -
数据可视化——升学与就业人数趋势
本文主要根据国家统计年鉴的数据,统计分析同一时代的人口中,升学与就业的数据趋势。可视化工具采用echarts。1980年出生,在1997年参加高考,以此类推。一、数据收集图1图2注:1980年出生的人对应的高考人数为原始数据中1997年的数据,对应的高校毕业人数为原始数据中2001年的数据,后面年份的数据以此类推;就业人数数据为出生人数减去对应的高校毕业人数。二、数据可视化图3图4三、分析总结高校毕业生的人数越来越多,导致不参加高考直接就业的人数越来越低。所以,最近出现一种现象“工原创 2022-01-01 11:13:00 · 1265 阅读 · 0 评论 -
Phoenix开启Hbase的namespace
背景HBase创建命名空间的语法是`create namepsce xxx`,使用phoenix后,同样可以通过SQL创建命名空间,但前提需要开启NameSpace同步。步骤关闭hbase和Phoenix在 HBASEHOME/conf/hbase−site.xml和HBASE_HOME/conf/hbase-site.xml和HBASEHOME/conf/hbase−site.xml和PHOENIX_HOME/bin/hbase-site.xml追加 <property&g原创 2021-08-10 13:57:55 · 762 阅读 · 0 评论 -
Kafka单节点部署
一、软件版本CentOS7.5Jdk 1.8Kafka 2.11二、步骤假定jdk已经安装完成解压安装包[icss@hadoop102 software]$ tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/修改解压后的文件名称[icss@hadoop102 module]$ mv kafka_2.11-2.4.1/ kafka在/opt/module/kafka目录下创建logs文件夹[icss@hadoop102 kaf原创 2021-05-14 16:13:30 · 336 阅读 · 2 评论 -
Datanode启动失败 java.net.BindException: Port in use: localhost:0
一、问题描述Hadoop启动集群后,发现datanode节点启动失败,查看datanode的日志,提示java.net.BindException: Port in use: localhost:0,如图所示:java.net.BindException: Port in use: localhost:0 at org.apache.hadoop.http.HttpServer2.openListeners(HttpServer2.java:919) at org.apache.hadoop.htt原创 2020-11-16 15:20:29 · 1026 阅读 · 0 评论 -
Spark Streaming输出至MySQL
一、环境系统:Win10开发工具:scala-IDEA-IDE-项目管理工具:Maven 3.6.0-JDK 1.8-Scala 2.11.11-Spark 2.1.1-MySQL 5.7MySQL c3p0 0.9.1.2 连接池二、案例利用从Socket数据源获取单词,进行单词统计,并将统计结果输出至MySQL数据库中;利用 c3p0 建立数据库连接池,每次连接MySQL都从连接池中获取,减少建立连接的开销;对 c3p0 连接池进行封装,形成惰性单例模式,减少连接原创 2020-09-04 10:11:26 · 521 阅读 · 0 评论 -
MapReduce 写入数据到MySql数据库
文章目录一、软件版本二、环境配置三、项目结构四、关键代码五、执行jar包六、MySql查询结果 Hadoop 0.19中提供的DBInputFormat和DBOutputFormat组件最终允许在Hadoop和许多关系数据库之间轻松导入和导出数据,从而使关系数据更容易地合并到您的数据处理管道中。 要在Hadoop和MySQL之间导入和导出数据,肯定需要在机器上安装Hadoo...原创 2019-11-26 14:14:34 · 2312 阅读 · 0 评论 -
Flume监控Tomcat日志输出到HDFS
本文主要介绍如何通过Apache Flume 监控Tomcat的Access Log,并将日志输出到HDFS。文章目录一、软件版本二、前提条件三、安装Flume3.1 解压到家目录3.2 修改conf/flume-env.sh四、配置Tomcat的日志输出五、配置Flume的Job选项5.1 flume中创建目录job5.2 创建文件六、启动Flume6.1...原创 2019-11-20 17:20:37 · 586 阅读 · 0 评论 -
全国高校大数据师资培训感悟
文章目录教师特点大数据大学课程 2019年7月份,中软国际举行了全国高校大数据师资培训,我作为中软国际资深项目教师授课,并组织教师开展丰富多彩的学术交流和研讨活动。 培训的地点在浙江宁波,来参加的老师来自全国多个省份,多位老师是博士学位、教授职称。非常有幸能和这么多高学历的老师一起探讨交流。教师特点理论性强多位老师的研究方向是数学和算法,曾经发表的论文就是算法的优化(如:聚类...原创 2019-07-22 18:56:56 · 1327 阅读 · 0 评论 -
Apache Storm简介及安装
一、环境准备3台虚拟机○ 主机名分别是:L0, L2, L3○ 操作系统:CentOS 6.7○ 已经装有JDK 7○ 已经装有 zookeeper-3.4.10apache-storm-0.9.6.tar.gz 二、Storm简介 Apache Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不...原创 2019-06-19 09:21:10 · 5414 阅读 · 0 评论 -
Initialization failed for Block pool <registering> (Datanode Uuid unassigned)
一、原因是namenode和datanode的clusterID不一致导致datanode无法启动.二、解决:2.1思路:删除data、tmp、namenode 数据后,重新格式化。2.2步骤:查看tmp的物理路劲 core-site.xml <!-- Hadoop文件系统依赖的基础配置 --> <property> <name>ha...原创 2019-05-11 16:04:13 · 7538 阅读 · 4 评论 -
CentOS 安装redis
Redis是一种内存数据结构存储,用作数据库服务器,缓存和消息代理。 Redis是用C编程语言编写的。 本教程将帮助您在CentOS 7/6服务器上安装Redis服务器。步骤1 准备 Redis软件包在默认的yum存...翻译 2019-05-06 10:04:48 · 242 阅读 · 0 评论 -
NoSuchMethodException ArrayWritable.<init>() 解决
在进行hadoop 的map reduce时,有时候会用ArrayWriteable作为KeyIN,KeyOut,ValueIn,ValueOut。编译时候可以通过,但是执行的时候会抛出异常NoSuchMethodException。原因ArrayWriteable类没有提供默认的无参构造函数解决自定义一个类(如:MyArrayW...原创 2019-04-20 20:00:58 · 466 阅读 · 0 评论 -
Hadoop3与Hadoop2及Spark比较
2017年12月发布的Hadoop 3标志着数据科学新时代的开始。Hadoop框架是整个Hadoop生态系统的核心,其他各种库都依赖它。 在本文中,我们将讨论Hadoop 3与Hadoop 2相比的主要变化。我们还将解释Hadoop和Apache Spark之间的差异,并建议如何...翻译 2019-02-18 09:04:37 · 7127 阅读 · 0 评论 -
ExitCodeException exitCode=-1073741701
在博客windows系统通过eclipse远程MapReduce服务器中部署环境后,有个别机器会出现ExitCodeException exitCode=-1073741701 异常,主要原因是windows操作系统缺少文件,本文主要介绍一下解决方法。原因:操作系统缺少 msvcr120.dll文件解决: &...原创 2019-01-23 18:07:23 · 3875 阅读 · 1 评论 -
IDEA中运行Spark
IDEA中运行Spark有两种方式本地模式和远程模式。1.本地模式 本地Spark程序调试需要使用local提交模式,即将本机当做运行环境,Master和Worker都为本机。Maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4....原创 2018-12-05 14:34:50 · 1335 阅读 · 0 评论 -
Spark-Shell运行任务
文章目录1.Spark-Shell 交互式编程1.1 启动命令1.2 Spark-Shell中运行wordcount2. spark-submit提交Job 开始本篇博客之前,请先准备好环境,参见【上一篇 Spark集群部署】1.Spark-Shell 交互式编程1.1 启动命令bin/spark-shell \--master spark://l0:7077 \--executo...原创 2018-12-05 14:14:26 · 2217 阅读 · 0 评论 -
An internal error occurred during: "Map/Reduce location status updater". java.lang.NullPointer
本文主要介绍如何解决在应用hadoop-eclipse-plugin插件时,出现了【An internal error occurred during: "Map/Reduce location status updater". java.lang.NullPointerException】错误。原创 2017-01-25 09:55:10 · 21320 阅读 · 26 评论 -
mapred.YARNRunner: Job jar is not present. Not adding any jar to the list of resources.
mapred.YARNRunner: Job jar is not present. Not adding any jar to the list of resources.解决方案原创 2017-02-04 14:05:35 · 2571 阅读 · 0 评论 -
centOS中安装hadoop伪分布式(二)
承接上一篇文章 centOS中安装hadoop伪分布式(一),继续配置hadoop原创 2017-02-27 10:07:03 · 416 阅读 · 0 评论 -
定时自动执行Sqoop及Hive命令
上一篇文章中介绍了手动输入命令方式,单步执行Sqoop及Hive命令《通过sqoop进行mysql与hive的导入导出》。本文主要介绍通过编写shell命令及定时执行(crontab)方式,定时自动执行Sqoop及Hive命令。原创 2017-07-26 15:58:40 · 9513 阅读 · 0 评论 -
VMWare克隆CentOS虚拟机后eth0不存在
通过修改HWadd地址来解决 VMWare克隆CentOS虚拟机后eth0不存在的问题原创 2017-11-10 16:38:02 · 619 阅读 · 0 评论 -
Hive基本操作
概要 Hive不存储数据,所有的CRUD都是对依赖的HDFS的操作,操作的过程是转化成MapReduce。原创 2017-12-07 10:45:10 · 280 阅读 · 0 评论 -
sqoop安装及配置
本文主要介绍sqoop安装及配置。原创 2017-12-07 13:19:50 · 806 阅读 · 0 评论 -
centOS中安装MySql及Hive
本文主要介绍在centOS中安装hive。原创 2017-05-23 09:19:20 · 2128 阅读 · 0 评论 -
通过sqoop进行mysql与hive的导入导出
本文主要介绍通过sqoop进行mysql与hive的导入导出。 1. 关系型数据库mysql表存取的结果,导出到hive; 2. 运用hive对结果进行清洗过滤,并将结果输出到HDFS; 3. 将HDFS的结果再次导出到关系型数据库mysql。原创 2017-07-12 17:23:42 · 6198 阅读 · 0 评论 -
windows系统通过eclipse远程MapReduce服务器
本文主要介绍在windows系统中通过eclipse编写MapReduce程序,远程访问Hadoop服务器。前提是Linux服务器中已经部署成功hadoop环境。原创 2017-08-09 22:03:11 · 950 阅读 · 0 评论 -
通过Idea远程调试Hadoop集群
&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;早期的开发中经常用eclipse远程调试Hadoop集群,近期Idea的市场占有率逐渐增加,本文介绍如何在通过Idea远程调试Hadoop集群。一、工程截图二、操作流程Idea中新建项目将hadoop依赖的jar包追加到工程的lib目录中,或通过maven增加依赖jar。在resource目录中,添加core-site.x...原创 2018-09-25 17:13:21 · 2923 阅读 · 10 评论 -
ExitCodeException exitCode=-1073741515 异常解决
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;在博客《通过Idea远程调试Hadoop集群》中部署环境后,有个别机器会出现ExitCodeException exitCode=-1073741515 异常,主要原因是windows操作系统缺少文件,本文主要介绍一下解决方法。原因:操作系统缺少 msvcr120.dll文件下载地址:链接:https://pan.baidu.c...原创 2018-10-15 13:38:09 · 24679 阅读 · 8 评论 -
大数据学习之路
目录 一、发展趋势二、使用技术三、高校课程大纲建议一、发展趋势 大数据开启了一次重大的时代转型,正在改变我们的生活以及理解世界的方式,而更多的改变正在蓄势待发。 据估算,全球数据总量预计2020年达到44个ZB(1ZB=10亿TB=1万亿GB),我国数据量将达到8060个EB,占全球数据总量的18%。大数据已经撼动了世界的方方面面,从商业科技...原创 2018-11-04 20:46:39 · 2158 阅读 · 1 评论 -
Spark概述
文章目录1.什么是spark2.Spark特点3. Spark用途1.什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 M...原创 2018-12-05 09:54:35 · 515 阅读 · 0 评论 -
Spark集群部署
文章目录1.集群角色2.安装部署1.集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Application的状态。Worker节点负责具体的业务运行。从Spark程序运行的层面来看,Spark...原创 2018-12-05 10:59:10 · 359 阅读 · 0 评论 -
centOS中安装hadoop伪分布式(一)
本文主要介绍在centOS6.8中安装Hadoop及配置hadoop伪分布式。原创 2017-02-27 09:44:14 · 584 阅读 · 0 评论