- 博客(26)
- 收藏
- 关注

原创 CDH添加ELASTICSEARCH服务elasticsearch-cdh-parcels
总览从网上找CDH如何管理添加ES服务,教程千篇一律,而且es包版本相对较低,该教程介绍如何安装elasticsearch7.9(2020-08-20发布)新版本单机多实例部署。角色分配master/data/ingest/customer该安装包支持单机多实例部署分为四类节点[主节点,数据节点,协调节点,自定义节点]安装parcels及csd准备从 https://github.com/JINGXI6/elasticsearch-cdh-parcels clone到cm节
2020-08-28 10:07:12
1125

原创 HugeGraph图数据库入门
一、Hg介绍http://localhost:80808080端口为restful api接口http://localhost:8088/8088端口为hg的可视化组件端口1、Hg中的图概念图类似于普通数据库的数据库概念每种标签类似于数据表一个图包含了所有数据所有具有相同关系相同scheam的数据可以放到一个图中Hg中创建图不像普通数据库一样cerate databas...
2019-10-25 15:49:13
2540

原创 HDFS standbyNameNode Java.io.IOException:Premature EOF from inputStream[运维必备]
1、报错Java.io.IOException:Premature EOF from inputStream可以看到是重演编辑日志时候出错了2、hadoop元数据目录Edits_ 编辑日志Fsimage_ 通过编辑日志合并而来的Edits_inprogress 正在往里写的编辑日志Seen_txid ...
2019-10-18 11:34:26
984

原创 ES监控及解决方案探究
1.概述1.目前的ES支持查询集群健康的API,网上也有一堆关于Es的监控的插件以及非插件2.大部分只能监控集群当前的状态,但是有时候业务上会遇到未分配的分片问题,我们无法通过未分配的分片定位到它们的位置,此时对于集群的修复是比较麻烦的。2.值得探讨不知道是不是闭着门造轮子,如果有知道过更好的监控方案的可以联系我,非常感谢!3.解决方案为了实现集群异常前的状态推送,并及时定位...
2019-09-25 14:38:56
745

原创 Spark实战经验
一、背景由于公司的老集群对于现有的开发工作者来说并不是特别的友好,数据模型也不是特别适用。所以为了让使用者更友好、数据更可靠,建立新集群、构建数仓,新集群搭建到使用,基于spark引擎自己构建ETL框架,在大量数据下,期间难免会遇到各种各样的问题。于是找几个踩过的比较经典的坑来说一下。二、采坑过程个人感觉单纯开发SparkStreaming的过程不叫经验,所以直接略过,来到测试环节,Spar...
2019-02-27 18:48:29
586

原创 集群磁盘扩容步骤
一、磁盘安装配置1、插入磁盘,重启2、重新启动服务器,进入webbios设置页面(开发集群使用ctrl + H 进入webbios,不同服务器可能不一样)3、界面左侧有配置阵列选项、下一步选择增加配置、手动配置、将左侧未配置的磁盘加入右侧驱动、选择raid0 模式,自动设置磁盘容量大小合并磁盘、进行磁盘初始化、保存重启二、挂载磁盘1、mkfs -t xfs /dev/sdc 对新磁盘进行...
2019-02-27 18:34:26
1543

原创 SparkStreaming+Kafka0.9.0.0多主题多分区偏移量维护
偏移量保存到数据库一、版本介绍具体使用方法,请看这两篇文章,下面只介绍需要修改的地方Kafka1.0.x偏移量管理以及维护思路使用等的问题看这一篇文章https://blog.youkuaiyun.com/qq_41922058/article/details/86478250Kafka2.0.0偏移量管理以及维护思路使用等的问题看这一篇文章https://blog.youkuaiyun.com/qq_419...
2019-01-18 19:23:24
744
2

原创 SparkStreaming+Kafka2.0.0多主题多分区偏移量维护
偏移量保存到数据库一、版本问题由于kafka升级到2.0.0不得不向上兼容,之前kafka1.0.0的接口已经完全不适应上个工具,重写偏移量维护Kafka1.0.x偏移量管理以及维护思路使用等的问题看上一篇文章https://blog.youkuaiyun.com/qq_41922058/article/details/86478250二、代码改动比较kafka-1.0.x版本,需要改动获取偏移量...
2019-01-18 19:16:59
1123
2

原创 SparkStreaming+Kafka1.0.x多主题多分区偏移量维护
偏移量保存到数据库一、版本区别之前版本的kafka偏移量都是保存在kafka中的,而现在的kafka偏移量保存在了自己的一个特殊主题__consumer__offsets中二、维护思路根据传入的主题以及消费者组,先判断库中是否存在当前消费者组的消费记录,如果不存在,则证明为第一次消费,获取主题每分区当前的偏移量保存入库,如果存在,则读取库中各分区偏移量字段,封装为MAP,传入创建Dstre...
2019-01-14 15:32:07
882

原创 Spark学习路线
准备编程语言介绍scala、java、python、R都有spark对应的api,但如果想深入理解spark还是需要学习scala的。(scala中隐式转换特性可以很大程度提高spark开发效率);Scala(FP+OP面向对象和函数式编程混合语言)优势在于函数式编程;scala是在java之外套了一层壳,编译之后还是.class,运行在jvm,所以java语言在学习大数据组建中也特别重要...
2018-12-29 17:48:18
2686

原创 Flume模拟场景各组件详解
由于工作原因,博客没进行更新,不过文章的确写了,就是太懒不想排版,code21.cn可能不会更新了,服务器费用的确太贵场景模拟kafka实时json格式数据解析写入hive了解FlumeFlume中最重要的概念就是agent,数据流向基本依靠这三个组件•Source:用来消费(收集)数据源到Channel组件中 数据源•Channel:中转临时存储,保存所有S...
2018-12-29 17:42:12
1199

原创 HA_配置
规划Ssh信任配置方式Ssh信任配置方式Ssh-keygen -t rsa -P “12345678” Ssh-copy-id Copy zookeeper以及hadoop文件创建zookeeper/datas/myid文件 启动zookeeper 查看状态 zkServer.sh status //leader follower配置hadoop...
2018-08-16 13:45:50
505

原创 zookerper单机部署及操作命令详解
单机模式安装准备环境,需要提前安装好jdk,准备好zookeeper安装包上传到用户目录下 安装工具使用rz命令进行上传,也可以使用xftp等工具上传安装rz $sudo yum install -y lrzsz(此命令仅限桌面环境使用ssh工具)Cd到zookeeper安装目录使用命令解压Tar -zxvf ~/zookeeper -C. 解压完...
2018-08-02 16:12:24
3419
转载 9个offer,12家公司,35场面试,从微软到谷歌,应届计算机毕业生的2012求职之路
1,简介毕业答辩搞定,总算可以闲一段时间,把这段求职经历写出来,也作为之前三个半月的求职的回顾。首先说说我拿到的offer情况:微软,3面->终面,搞定百度,3面->终面,口头offer搜狗,2面,悲剧腾讯,1面,悲剧布丁移动,3面,搞定涂鸦游戏,3面,搞定友盟,3面->CEO面,搞定雅虎,4面->终面,搞定微策略,2面,悲剧人民搜索,3面->...
2019-11-08 11:50:17
1688
原创 Django_Models快速上手
Models创建表 -> Models增删改查 -> 区别 -> 更多参数及字段Models创建表1.导入models模块from django.db import models,默认自动导入2.所有的Model都继承自django.db.models.Model类,Model类的每一个属性都继承自django.db.models.Field,这个Field有几个作用:...
2018-12-29 17:59:33
313
原创 lnmp服务器搭建全过程
一直想有一个自己的博客,就购买了虚拟主机,同时我也是一个喜欢折腾的人,不喜欢集成环境。又想追求速度,所以就安装了纯净版的centos7.4 x64。lnmp:linux,Nginx、mysql,phplamp:linux、Apache、mysql,php两者的区别nginx相对于apache的优点:      轻量级,同样起we...
2018-12-29 17:13:56
1066
原创 Git快速上手及常用命令详解
1.Git、Github、GiteeGit 是一种版本控制系统,是一个命令,是一种工具。 Github 是一个基于git实现在线代码托管的仓库,向互联网开放,企业版要收钱。 Gitee 即码云,是 oschina 免费给企业用的,不用自己搭建环境。2.下载安装Githttps://github.com/git-for-windows/git/releases/...
2018-08-02 23:57:12
301
原创 伪分布式简单配置
基本环境Linux,jdk开始配置hadoop首先配置hadoop环境变量sudo vim/etc/profile.d/hadoop.shexport HADOOP_HOME=/yourhadoop/binExport PATH=$PATH:$HADOOP_HOMESudo source /etc/profile伪分布式配置Unpack the dow...
2018-07-27 23:17:07
314
原创 完全分布式简单配置
完全分布式是由3个及以上的实体机或者虚拟机组建的机群。分布式各节点介绍namenodeNameNode主要是用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。Secondarynamenode平时不工作,元数据进行合并时工作,工作时与namenode拥有相同多的内存。datan...
2018-07-27 23:15:08
730
原创 SE版Eclipse下集成tomcat8.0及9.0
一、javase版eclipse 配置tomcat常见问题(找不到server选项)此时我的eclipse已经安装了插件 二、问题原因缺少JST Server 插件三、安装插件(EE版本略过二三步到第四步进行配置tomcat)方法一: 找到自己eclipse对应版本(可以向下兼容),最后一个选项的勾去掉 选择带有JST Server Adapters的两个选项(因为我的eclipse已经安装...
2018-05-16 13:09:35
4175
原创 CAS服务器SSO模拟登录
一、CAS及原理原理参考文章https://blog.youkuaiyun.com/javaloveiphone/article/details/52439613 二、模拟登录开始1. 拿到网站进行抓包 工具Fiddler4(工具使用方法自行百度) 2. 分析参数主要参数:lt :[REQUIRED] 登录令牌; 该参数是login ticket id,主要是在登录前产生的一个唯一的“登录门票”,然后提交登录...
2018-05-15 21:46:34
5115
1
原创 List.add()及数据结构存在的逻辑问题
版权声明:本文为博主原创文章,转载请注明出处:https://blog.youkuaiyun.com/qq_41922058一、问题来源做项目开发查询所有用户功能时出现的一个严重逻辑错误。要开发一个带有后台管理用户的功能:于是先进行数据库数据查询封装进JavaBean添加进数据结构,发现界面展示的数据并不是自己想要的数据,而是最后一条记录的重复数据。二、问题展示 查询代码:public static List...
2018-04-26 19:07:43
880
原创 多线程操作事务及手写连接池
版权声明:本文为博主原创文章,转载请注明出处:https://blog.youkuaiyun.com/qq_41922058一、如何多线程操作事务1.sourcepackage jdbc;import java.sql.Connection;import java.sql.SQLException;import java.sql.Statement;public class Demo02 {public De...
2018-04-24 13:15:23
721
原创 JDBC基础操作与简单代码优化
一、加载驱动连接数据库//加载驱动器try {Class.forName("oracle.jdbc.OracleDriver");System.err.println("注册成功..."); } catch (ClassNotFoundException e) {System.err.println("注册异常");} String url = "jd...
2018-04-22 22:37:22
417
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人