
大数据
abandon_li
邮箱:lihongji3013@163.com
展开
-
HDFS复习总结
1.1HDFS产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,...原创 2018-08-05 14:34:47 · 655 阅读 · 0 评论 -
SpringBoot-data-elasticSearch 复杂查询
最近做的项目中使用到了Es,我选择了SpringBoot-data-elasticSearch来操作Es,SpringData的封装还是比较好用的,把用到的api贴上来。单条件查询:QueryBuilder queryBuilder = QueryBuilders.matchQuery("json_message.json.type","Click");多条件查询:BoolQue...原创 2019-04-01 16:19:31 · 4388 阅读 · 0 评论 -
RedisTemplate切库
最近在做项目是用到了Redis,之前了解不多,但因为项目要求是需要亿级别文档的搜索秒级别返回,所以使用了SpringBoot集成redis,根据大神设计好的逻辑进行后端开发。在过程中最主要的问题就是在查询不同redis库的索引时需要切库,但是试了setDataBase后无效,最后只能选择最笨的方法,追着一层层源码重写了redisTemplate,并建立了多个连接。下面是其中一个redis的Pr...原创 2019-03-26 15:55:45 · 1270 阅读 · 0 评论 -
基于SpringBoot、Mybatis的项目模块
最近做了一个基于SpringBoot和mybatis的项目,和前一篇的Spark Streaming是一个完整的项目,系统后端通过读取mysql中的数据在前端页面显示,并进行处理。前端页面展示使用的是thymeleaf,在项目中遇到的其中一个小问题是数据显示的分页处理,最终使用了mybatis的pegeHelper分页工具。只是简单的查看了一下SpringBoot的API,发现其对于集成来说是非常...原创 2019-02-13 10:54:05 · 447 阅读 · 0 评论 -
SparkStreaming、kafka、mysql集成
前一段接触了一个项目,需求是mongo中的增量数据作为kafka的生产者,用sparkStreaming作为消费者,最终经过处理后写入到mysql中。之前对kafka和sparkStreaming仅仅是了解,所以用了我最熟悉的java来完成项目。部分代码如下:public class JsonStream { public static void main(String[] ...原创 2019-02-13 10:28:24 · 698 阅读 · 0 评论 -
ES执行聚合操作时报错(需单独开启内存的排序和聚合)
在观看ES文档时做了一些基础测试,在执行以下操作时出现报错GET /megacorp/employee/_search{ "aggs":{ "all_interests":{ "terms": { "field": "interests" } } }}错误如下:{ "error": { &qu原创 2019-02-14 17:44:02 · 1496 阅读 · 0 评论 -
hive中的DML
Hive中的DML数据操作语法数据导入向表中装载数据(Load)1)语法hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1) load data:表示加载数据(2) lo...原创 2018-08-24 15:08:08 · 452 阅读 · 0 评论 -
hive中的DDL
Hive中的DDL数据定义创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)hive> create database db_hi...原创 2018-08-24 15:00:29 · 447 阅读 · 0 评论 -
hive查询语法
Hive中的查询语句https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELE...原创 2018-08-24 14:56:39 · 2988 阅读 · 0 评论 -
Hive元数据复习总结
1、存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本 版本说明 1 1.1.0 Set by...原创 2018-08-24 14:55:17 · 486 阅读 · 0 评论 -
Hbase存储原理复习
1.HBase架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由以下类型节点组成:HMaster节点、HRegionServer节点,而在底层,它将数据存储于HDFS中。 HMaster节点作用 1.管理HRegionServer,实现其负载均衡。2.管理和分配HRegion,比如在HRegion split时分配新的HRegio...原创 2018-08-23 14:17:15 · 1215 阅读 · 0 评论 -
Es maximum shards open 报错
今天发现kibana的dashboard中没有filebeat收集的日志消息了,去看filebeat的服务发现并未停止,查看log后发现如下问题:Validation Failed: 1: this action would add [2] total shards, but this cluster currently has [1001]/[1000] maximum shards open。...原创 2019-09-18 19:39:33 · 3263 阅读 · 0 评论