
Big data
dingleilovewanping
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Doris
Apache Doris原创 2022-07-27 10:13:07 · 506 阅读 · 0 评论 -
编辑距离算法比较两个字符串内容不同
package com.adt.util;/** * 标记前后内容不同 */public class StringHighLightDifferentUtil { /** * 得到标记的字符串 */ public static String[] getMark(String a, String b) { String[] temp = getTempString(a, b); String[] result =原创 2022-02-28 10:59:04 · 202 阅读 · 0 评论 -
logstash抽取数据库发送到kafka,以及使用logstash的something
input { jdbc { jdbc_connection_string => "jdbc:mysql://ip:PORT/database?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8&useSSL=false&allowMultiQueries=true&zeroDateTimeBehavior=convertToNull"原创 2021-07-05 14:40:34 · 371 阅读 · 0 评论 -
一些常用的大数据命令(日常更新)
一些常用的大数据命令(日常更新)note:由于本人经常忘记各种命令(包括一些简单的),所以做一个总结Linux常用命令查找大文件 ls -lh $(find /data -type f -size +100M)查看目录文件占用最大 du -h --max-depth=1或者 du -sh *查看磁盘使用 df -h查找文件 find / -name ‘filename’查找目录 find / -name ‘path’ -type d查找内容 find . | xarg原创 2021-07-05 14:10:13 · 288 阅读 · 0 评论 -
大数据知识点(持续更新中。。。)
hdfshdfs组件Namenode : 存储系统元数据、 namespace、管理datanode、接受datanode状态汇报Datanode: 存储块数据,响应客户端的块的读写,接收namenode的块管理理指令Block: HDFS存储数据的基本单位,默认值是128MB,实际块大小0~128MBRack: 机架,对datanode所在主机的物理标识,标识主机的位置,优化存储和计算为什么HDFS不适合小文件存储?情况Namenode占用Datan原创 2020-10-09 15:49:07 · 299 阅读 · 0 评论 -
Kettle导出mysql数据到hive
Kettle导出mysql数据到hive通过Kettle导出mysql数据到hive有两种方案: 1. 将hive表直接作为表输出进行先将数据上传到hdfs,然后执行SQL语句load到hive具体步骤如下:(1)将hive安装目录下,lib里面的所有hive开头的jar包转移至kettle的大数据jar包目录下 data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib(2)原创 2020-08-13 14:43:00 · 560 阅读 · 0 评论 -
logstash 消费数据到kafka异常
报错 :[logstash.outputs.kafka ] Sending batch to Kafka failed. Will retry after a delay. {:batch_size=>1, :failures=>1, :sleep=>0.1}原因: logstash 日志报错生产数据到 kafka 失败解决办法: 查看kafka配置,默认单条消息最大为1M,当单条消息长度超过1M时,就会出现发送到broker失败,从而导致消息在producer的队列中一直累原创 2020-07-18 15:39:32 · 1878 阅读 · 0 评论 -
Flink从HBase通过抽取数据进行计算再存入HBase
业务场景:Flink从HBase中抽取增量的数据,IP_COPYRIGHT_SOFTWARE_LIST有一条新的记录产生时,清洗出COMPANY_ID,IP_SOFRWARE_ID外连接IP_COPYRIGHT_SOFTWARE,判断USE_FLAG是否为0,不为零则不累加计算每次用COMPANY_ID 去IP_COPYRIGHT_SOFTWARE_LIST表里做统计IP-SOFTWARE_ID...原创 2019-12-23 10:15:50 · 1433 阅读 · 4 评论 -
Sqoop从Mysql自动批量导入到HBase
通过shell脚本进行自动导入,由于数量较多,容易发生内存溢出问题,可以每10w条数据导入一次,进行自动循环导入#!/bin/bashminsql="select min(id) from IP_COPYRIGHT_SOFTWARE_LIST;"minid=$(mysql -h 192.168.131.168 -P 3306 -u root -pDataadt123! -D IPTRADE...原创 2019-12-23 10:01:09 · 414 阅读 · 0 评论 -
Flink
Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案第一代大数据处理方案:基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算 ,两套独立的计算引擎,难度大(2014年9月)第二代大数据处理方案:Spark RDD 静态批处理、Spark Streaming(DStream)实时流计算(实时性差...原创 2019-11-10 00:17:55 · 791 阅读 · 0 评论