
大数据综合
jyj019
向着喜欢的道路前进
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdp集群扩容
hdp扩容前检查在扩容前做好检查,很多问题都可以避免:检查磁盘是否挂载完成,尤其是对于数据盘。检查节点之间是否做好免密(非常重要):必须集群每个节点之间都要做好免密。检查java和python环境检查时间同步是否完成(ntp)添加yum源cd /etc/yum.repos.d/增加 amabri.repo HDP.repo HDP-UTILS.repo安装agentyum install -y ambari-agent在url新增节点和免密...原创 2022-01-10 20:30:11 · 1386 阅读 · 0 评论 -
Hbase手动修复表
最近在运维时候,发现有个hbase表挂载错误,需要手动修复hbase元数据,具体操作如下:原创 2021-11-24 20:30:38 · 610 阅读 · 0 评论 -
kylin数据清理之删除过期segement
虽然有手动删除segement的方式,但是对于segement很多的比较麻烦,同时disable cube对于数据操作也有一定不确定性,故采用批量删除segement的方式删除数据。原创 2021-11-24 19:24:34 · 1668 阅读 · 0 评论 -
kylin卡死问题排查之kylin元数据备份修复
近期发现部分segement合并新建出现问题,查询错误日志均无异常。想起在手动删除segement表时发现部分表无法删除。最后查询kylin的元数据表,查询备份的表发现部分元数据存在NEW状态表(该表只有目录,未创建hbase表,jobID查询为空,所以无法查询)原创 2021-11-24 18:43:32 · 1737 阅读 · 0 评论 -
常见数据处理方法
有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理的方法,总结如下:原创 2021-05-14 09:16:01 · 10103 阅读 · 0 评论 -
交付文档注意事项
最近涉及到项目交付,编写了很多技术文档,但因为没有经验导致多次修改,尤其是客户和我们技术人员的关注点其实是不一样的,就导致我没有抓住重点,导致反复修改,这里总结下我的一些经验。文档与技术协议合同对应就我所经历的项目,前期的技术要求和最后的项目有一些细节的偏差。最后交付文档的时候更多应该以技术协议和合同为准。并且需要突出体现里面的内容。注意题名一致项目名称与文档名称必须前后一致,不能多,不能少,不然会产生歧义。部分问题不好总结,不过待补充了,...原创 2021-02-09 15:17:10 · 673 阅读 · 0 评论 -
hive基础语句(包含创建表和插入数据)
最近在研究hive的一些基本的使用和操作,发现有些语句的使用和一般的sql还有一定的差别。网上的文章还是比较杂乱,因此我在这里进行一些总结,扩展。原创 2021-02-09 14:15:30 · 6903 阅读 · 1 评论 -
hive卡死问题(进入服务卡死)
最近安装了一套测试系统,在测试系统的时候,发现有服务正常,但无法进入hive的后台界面。不管是输入hive 还是具体的hive -e 语句执行,都有相应的问题。最后问题定位为相应组件问题。原创 2021-01-06 16:14:28 · 3778 阅读 · 0 评论 -
在linux通过tomcat部署war包,解决Redhat6.8采用tomcat8部署失败问题
最近需要通过tomcat部署war包,但很多步骤不熟悉,也遇到了各种各样的问题,这里就部署的特别步骤和各种问题做一个记录原创 2020-11-12 10:54:15 · 287 阅读 · 0 评论 -
大数据现有架构
现在收集一些常用的大数据常用结构范式,进行一个汇总,作为一个概念性的东西,目前不涉及具体的技术架构原创 2020-11-02 09:38:54 · 368 阅读 · 0 评论 -
本地源HDP(Ambari)安装配置(二)(centos6安装)
关于HDP总结吧,其实说全很多文章都写的很全,这里就自己踩过印象深的地方/和别人有区别的地方写一点吧检查在安装之前建议按需要步骤检查环境,避免之后奇奇怪怪的错误。检查,包括关闭SELINUX,关闭防火墙,打开httpd,配置host,检查jdk数据库,还有时间同步等关闭SELINUX修改配置文件,再机器重启生效:vi /etc/sysconfig/selinux #修改配置#SELINUX=enforcingSELINUX=disabled关闭防火墙vi /etc原创 2020-10-20 15:59:52 · 705 阅读 · 0 评论 -
java启动脚本解析
这个问题是基础常见问题,但也正是因为这一点点没注意,把自己坑了两天,感觉必须要总结下这个吧这个问题的直接原因是读配置出错if [ -z "${PROJECT_HOME}" ]; then export PROJECT_HOME="$(cd "`dirname "$0"`"/..; pwd)"fiPROJECT_CONF_DIR=${PROJECT_HOME}/conffor f in ${PROJECT_CONF_DIR}/*.*; do CLASSPATH=${C.原创 2020-07-24 09:17:09 · 334 阅读 · 0 评论 -
数仓相关知识点/笔记(OLTP和OLAP)
现在实时数仓是一个非常火的趋势,最近开始逐渐了解一些数仓相关的东西,从基础的理论知识包括架构,算一个基础总结和学习记录吧。不定期补充更新原创 2020-11-02 09:22:26 · 832 阅读 · 0 评论 -
Python环境安装一些问题记录
这次因为工作需要,要配置了一些python的环境,需要支持很多库。自己一路下来还算顺畅,不过也算踩了些坑,在此试着进行总结。随着工作的需要还会逐渐补充一系列问题这里anaconda安装和版本问题根据https://www.jianshu.com/p/742dc4d8f4c5上面简单入门找到国内的开源镜像站https://mirrors.tuna.tsinghua.edu.cn/anacon...原创 2020-03-06 09:33:47 · 1871 阅读 · 0 评论 -
主数据及编码
之前做数据梳理的时候对主数据进行了一个总结,虽然项目没有很好的开展,不过对我来说也是有很多收获的,这里把之前用到的一些文档总结如下。 术语和定义 主数据早期以 ERP 为代表的制造业集成应用系统的发展过程中,产生了信息孤岛和数据处理危机问题。为了解决这些问题,主数据这个概念随之诞生。目前,对主数据的定义没有统一,一些 MDM 产品提供商和学者提出了各自对主数据的定义,如下:Da...原创 2020-01-26 12:03:40 · 9526 阅读 · 0 评论 -
nohup运行sqoop卡顿问题
最近因为工作需要开始接触hive和mysql的数据加载,其中hive向mysql存储数据时,其中有些任务采用了nohup的方式后台执行。遇到了下面这个问题,因目前难以排查,现做一个记录。情况描述环境:脚本内容为循环执行nohup &后台执行发现,任务显示暂停[1]- 2856 Stopped (tty output) nohup ./diaodu.sh同时查询mysq...原创 2019-09-10 20:15:05 · 708 阅读 · 1 评论 -
关于Storm中Spout拉取和发送数据的一种优化思路
一般storm的open是作为配置加载项的,但是在实际的操作中也可以在open中从Kafka拉取数据,在nextTuple发送数据,这样减少了nextTuple中的资源消耗。这种方法的使用和线程相关,目前只能通过队列实现,用map等结构测试失败。 public void open(Map map, TopologyContext topologyContext, SpoutOutputCol...原创 2018-07-01 10:05:23 · 922 阅读 · 0 评论 -
GeoSpark调研(一):简介
GeoSpark简介GeoSpark是一个用于处理大规模空间数据的开源内存集群计算系统。是传统GIS与Spark的结合。GeoSpark扩展RDD以形成空间RDD(SRDD),并跨机器高效地对SRDD数据元素进行分区,并引入新颖的并行化空间(几何操作,遵循Open Geosptial Consortium(OGC)标准)转换和操作(用于SRDD),提供更直观的界面供用户编写空间数据分析程序。G...翻译 2018-06-27 22:16:03 · 6609 阅读 · 0 评论 -
GeoSpark调研(二):主要特性
主要特性空间SQL GeoSparkSQL完全支持Apache Spark SQL。特点如下:(1)支持SQL / MM-Part3,Spatial SQL标准(2)支持纯的Spark SQL语句。不再支持DSL风格了。(3)支持Spark查询优化器:GeoSpark Spatial Join / predicate pushdown!(4)支持多个GeoSpark参数。(5...翻译 2018-06-27 22:39:07 · 2250 阅读 · 1 评论 -
GeoSpark调研(三):主要应用
应用论文示例应用1:空间聚合(Spatial Aggregation) 假设一位研究空气质量和树木之间的关系的环境科学家想要探索旧金山的树木数量。查询可以利用由GeoSpark提供的SpatialRangeQuery()来返回旧金山的所有树。另外,一个显示旧金山树木分布的热图(空间聚合)也能有帮助。这个空间聚合查询(即:热图)需要计算地图上每一个区域的所有树木。在热图中,在空间查询...翻译 2018-06-27 22:43:36 · 2300 阅读 · 1 评论 -
FiloDB调研:简介,结构和性能分析
FiloDB概念FiloDB是开源分布式,版本化和列式分析数据库,支持Spark SQL查询和流的构建的数据库。存储引擎和计算层FiloDB使用Apache Cassandra作为其存储引擎,使用Apache Spark作为其计算层。Apache Cassandra作为一套开源分布式Key-Value存储系统,具有分布式、基于column的结构化和高可扩展性等特点。FiloDB充分利用...原创 2018-06-28 09:53:47 · 956 阅读 · 0 评论 -
Cassandra数据库调研(待补充):简介
Cassandra在 ColumnStore和MetaStore中实现。是FiloDB的重要组成部分。简介Cassandra使用了Google 设计的 BigTable的数据模型,与面向行(row)的传统的关系型数据库或键值存储的key-value数据库不同,Cassandra使用的是宽列存储模型(Wide Column Stores)[8],每行数据由row key唯一标识之后,可以有最...原创 2018-06-28 10:01:49 · 499 阅读 · 0 评论 -
java原生项目监控设计思路
之前一个月准备完成项目的监控,但资源紧张,所以没采用成熟的框架而是用java原生程序实现了对项目的监控。这套监控程序更多的是从使用者角度(比较抽象),而且由于项目时间紧,我甚至没时间去参考现在开源的程序监控框架,所以也没法理论联系实际(笑),下面讲下思路和遇到的一些问题吧。设计思路:接入数据 验证数据接入是否正常,确定是数据源还是之后程序的问题应用程序 监控应用程序是否正常启动,防止多...原创 2019-01-15 19:58:02 · 4616 阅读 · 9 评论 -
java原生程序redis连接(连接池/长连接和短连接)选择问题
最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这个问题的具体发生在java原生程序和redis的交互中。这个问题对我最深刻的教训就是说明获取连接不能迷信连接池和原封不动的搬运以前代码的utils。在连接的建立的一开始就应该思考连接的稳定性和是否应该关闭连接。否则这些问题在线上运行十几个小时可能才会暴露。原创 2019-01-15 21:35:12 · 10648 阅读 · 8 评论 -
Storm程序的mysql连接问题及可行的处理方式
最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这是最后一篇。Storm程序因为有他本身框架的组合方式,只有再要输出的bolt创建jdbc对象(看起来和redis和hbase没什么区别)。但实际上却有不少的坑(有些坑我现在都没明白,只能说根据经验规避),最后两点体会:尽量不要再storm程序中用mysql。尽量减少storm程序中创建jdbc连接的bolt。原创 2019-01-27 09:27:20 · 1259 阅读 · 1 评论 -
java原生程序mysql连接(Durid连接池和普通连接)选择问题
最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这个问题的具体发生在java原生程序和mysql的交互中。心得和上一篇一样,不过没用好也有对连接池的不熟悉的原因,连接池本身的api和配置项,以及与一些框架的集合仍然是值得研究的问题(这次因为方向问题先回避了)。原创 2019-01-16 22:49:16 · 1047 阅读 · 1 评论 -
java原生项目监控设计思路(二)
之前写过第一版监控思路,收到我都想不到的关注度,后面梳理需求进行了一个更大范围的监控,并支持后续报表的生成。最近因为资源增加,也在关注elk监控相关思路,之后应该也会有新的文章产出(把监控的坑越挖越大),现在结合旧版讲下设计思路和实现。设计思路:这次专注于数据量监控,因为这是一个痛点。同时每天数据量能直观对数据接入是否成功进行验证,同时比对每个模块数据是否正常写入,发现延迟卡死等问题。...原创 2019-05-31 14:51:14 · 280 阅读 · 0 评论 -
hdfs写入缓慢问题:思路分析与问题解决
最近遇见加载程序写入hdfs速度缓慢问题。经过长时间的分析后解决,这里写下思路和解决方案。原创 2019-06-04 21:15:47 · 7528 阅读 · 3 评论 -
log4j2日志迁移总结与问题
最近为实现日志的分类,压缩,将log4j升级为log4j2。虽然有很多文章对其中配置讲的很详细,但实践中仍有不少细节值得补充,虽然看着比较零散,但希望对再次遇到这些问题的有所帮助。原创 2019-07-17 08:36:59 · 404 阅读 · 0 评论 -
hive向mysql导入数据错误问题( java.lang.RuntimeException: Can't parse input data:)
最近因为工作需要开始接触hive和mysql的数据加载,其中hive向mysql存储数据时,因为hive 表的格式可能导致错误。下面讲下这个问题。原创 2019-09-08 11:10:49 · 5292 阅读 · 0 评论 -
关于Storm实时往HBase存数据的性能优化
在开发中根据业务逻辑,需要存储在Storm中每个Spout和Bolt中产生的数据到HBase表中。在程序调优的过程中不断调整和优化了几种方案。1.直接在每个Spout和Bolt中连接HBase存放数据这是首先考虑和测试的选择,也是最先放弃的选择,短时多次建立连接会造成资源的浪费和排队,存储的时间的过长也会影响Topology流的稳定性和实时性。8.16补充:后期实时性要求降低,HB...原创 2018-06-27 11:33:22 · 1340 阅读 · 0 评论