书上的虫子-优快云博客

原创 Mongodb设置超级用户和普通用户

1.修改dbPath（为后期普通用户做铺垫）[hadoop@hadoop01 ~]$ sudo vi /etc/mongod.conf # mongod.conf# for documentation of all options, see:# http://docs.mongodb.org/manual/reference/configuration-options/# wher...

2019-01-22 17:07:52 2087

原创极其简易实用的mongodb安装(Linux)！！！

1.配置mongo的yum源sudo vi /etc/yum.repos.d/mongodb-org-3.4.repo#在该文件中添加如下代码[mongodb-org-3.4]name=MongoDB Repositorybaseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.4/x86_64/gpg...

2019-01-22 16:45:40 206

原创万万没有想到是这样的报错"Unauthorized request to start container"

一、在执行任务时一直报错，求救各路大神，都没有成功解决，集群时间不同步，万万没想到。一直是以为内存不足导致的，我就加大内存但是还是报错，心态快要爆炸了，整了一天半，最终解决了！Container launch failed for container_1546816092060_0011_01_000003 : org.apache.hadoop.yarn.exceptions.YarnExce...

2019-01-10 20:44:15 2223

原创执行hive脚本报错！！！关于"Specified key was too long; max key length is 767 bytes"

1.执行hive脚本报错，怎么呀不会想到是MySQL出问题了！FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An exception was thrown while...

2019-01-10 11:02:24 199

原创 Elasticsearch与IK结合！

一、下载地址https://github.com/medcl/elasticsearch-analysis-ik/二、下载对应的IK版本也可以在线安装：/usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/d...

2018-12-26 21:46:04 331

原创初识Elasticsearch之安装部署......(二)

一、安装包下载Elasticsearch官网： https://www.elastic.co/products/elasticsearch二、安装Elasticsearch（单节点Linux环境）解压elasticsearch-5.6.1.tar.gz到/install/目录下[hadoop@hadoop02 tools]$ tar -xvf elasticsearch-5.6.1.t...

2018-12-26 21:16:41 138

原创初识Elasticsearch······（一）

一、什么是Elasticsearch？Elasticsearch，基于lucene，隐藏复杂性，提供简单易用的restful api接口、java api接口（还有其他语言的api接口）。关于elasticsearch的一个传说，有一个程序员失业了，陪着自己老婆去英国伦敦学习厨师课程。程序员在失业期间想给老婆写一个菜谱搜索引擎，觉得lucene实在太复杂了，就开发了一个封装了lucene的开源...

2018-12-26 20:20:47 183

原创 Oozie部署

一、Oozie 简介Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给Apache，提供对 Hadoop Mapreduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。二、Oozie 的功能模块介绍2.1、模块1)Workflow...

2018-12-26 19:41:36 283

原创使用Sqoop将Hive数据导入MySQL中遇到中文乱码！

今天做项目，使用sqoop将hive中数据导入到mysql中时。mysql中上午数据出现中文乱码问题。以为值字符集问题，各种改字符集不好使。解决方案如下：1.未修改之前在mysql中查看字符集mysql> show variables like 'character%';+--------------------------+----------------------------+...

2018-12-20 20:51:24 2980 1

原创偶遇HTML，简单了解一下！

今天在做项目时，因为需要前端展示，就不得不看了一些基础的HTML点，总结了一些关于标签的知识！一、HTML文件命名规则：用英文，不用中文1、.html和.htm;2.无汉字、无空格、无特殊符号（如标点符号）3.必须以英文开头，只可以有英文字母、下划线和数字；4.首页的文件默认命名为：index.html或index.htm；二、有哪些标签？通过不同的标签，HTML文档可以包含不同的内...

2018-12-13 20:58:03 171

原创使用JavaAPI 实现操作消费Kafak数据，偶遇一坑！

一、检查环境是否正常查看虚拟机中的各个节点启动是否正常，这一步很关键。产品上线前不可能直接拉到服务器上测试，肯定在自己搭建的集群中先行测试；通过kafka控制台消费者是否可以消费数据；通过Java API 是否可以获取到kafka的消息。二、示例代码！import java.util.Arrays;import java.util.Properties;import org.apache...

2018-12-08 11:29:45 423

原创 Nginx部署以及反向代理和负载均衡！

一、Nginx是一款高性能的http 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器。由俄罗斯的程序设计师Igor Sysoev所开发，官方测试nginx能够支支撑5万并发链接，并且cpu、内存等资源消耗却非常低，运行非常稳定二、nginx安装官方网站：http://nginx.org/2.1 环境安装2.1.1 需要安装gcc的环境。#yum install gcc...

2018-12-04 19:24:36 202

原创 Zookeeper集群搭建和Kafka集群的搭建

Zookeeper！！！一、Zookeeper集群搭建步骤0）集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper。1）解压安装（1）解压zookeeper安装包到/home/hadoop/insatll/目录下[hadoop@hadoop01 tools]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /home...

2018-12-01 11:30:31 1175

原创 Hive执行命令时遇到的一个坑！！！

一、今天在使用Hive对数据处理时，遇到了这个问题！执行命令：hive> select distinct etl(name,region,huxing,area,chaoxiang,zhuangxiu,dianti,danPrice,sumPrice) from house where sumprice>=300;执行结束后报如下错误：Application applicati...

2018-11-29 21:41:39 1764

原创 centOS 6.5 安装 Python2.7

centOS 6.5 安装 Python2.71、检查centOS中默认的python版本，一般是python2.6。　　命令：python –v2、安装GCC　　命令：#yum install gcc-c++3、安装wget网页下载工具：为后续下载做准备　　命令：#yum install wget4、安装xz解压工具，用来解压tar.xz格式的文件　　命令：# wg...

2018-11-28 19:47:18 234

原创 Linux 的 shell 编程

Linux 的shell 编程-记住三个命令的运用形式grep ‘字符’ 文件sed ‘命令’ 文件awk ‘条件{命令}’ 文件-死记一点，单引号内就是正则表达式的用法1.grep 及正则查询2.cut 操作2.1 cut 查看2.2 cut [选项] 文件名选项：-f 列号：提取第几列-d 分隔符：按照指定分隔符分...

2018-11-26 21:02:11 358

原创浅谈Hbase以及部署使用

一、Hbase简介1.1Apache Hbase 是Hadoop数据库，一个分布式、可伸缩的大数据存储。1.2 Hbase的特点大：一个表可以有数十亿行，上百万列。无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的列；面向列：面向列（族）的存储和权限控制，列（族）独立检索；稀疏：对于空的列，并不占用存储空间，表可以设计的非常稀疏...

2018-11-24 10:00:59 663

原创兄台别走，带您去看Hadoop和Spark的不同！！！

一、Spark它主要包含以下几个方面：Spark Core – 用于通用分布式数据处理的引擎。它不依赖于任何其他组件，可以运行在任何商用服务器集群上。Spark Sql – 运行在Spark上的SQL查询语句，支持一系列SQL函数和HiveQL。但是还不是很成熟，所以不要在生产系统中使用；而HiveQL集成了需要的hive元数据和Hive相关的jar包。Spark Streaming – 基...

2018-11-24 09:38:41 1351

原创 Spark调优之并行度那些事~

Spark调优之调节并行度一、并行度概念：就是指的是Spark作业中，各个stage的task数量，代表了Spark作业的各个阶段(Stage)的并行度。二、试想如果不调节并行度，导致并行度过低，会怎么样？比如现在spark-submit脚本里面，给我们的spark作业分配了足够多的资源，比如50个executor，每个executor有10G内存，每个executor有3个cpu core...

2018-11-17 10:07:52 231

原创 Hadoop一些常见错误

1.Hadoop采集的字符集问题修改/etc/sysconfig/i18n 更改字符集为en_US.UTF-8 重启机器生效。重启机器的指令为：在root下敲入如下指令：sync;sync;init 62.修改mapreduce 在gateway/性能下修改：MapReduce 子 Java 基础选项、Map 任务 Java 选项库、Reduce 任务 Java 选项库全部配置成 -...

2018-11-10 19:47:52 357

weixin_43646034的博客