- 博客(9)
- 收藏
- 关注
原创 Kafka
Kafka一、是什么?Kafka分布式流平台(消息队列)二、核心概念 Broker 是kafka集群启动起来的一个JVM进程 topic 在Kafka中可以创建多个topic 每个生产者和消费者进行数据读写时,都需要指定topic partition 每个topic包含多个分区,分区会被均衡的创建在每一个broker上,分区本质上就是一个文件夹,分区中存储生产者发送的数据 replication-factor 每个topic创建时会设置分区的副本个数
2021-07-08 20:45:34
173
2
原创 Hive安装以及SparkSql配置
Hive依赖的前提组件 HDFS 用来存储Hive中表的内容数据(文件) MySQL 用来存储Hive中库和表的结构信息 Hive的安装 下载解压修改名字 修改配置文件 hive-env.sh HADOOP_HOME=/opt/hadoop-2.7.7HIVE_CONF_DIR=/opt/hive-2.3.9/confJAVA_HOME=/opt/jdk1.8.0_291COPY hive-site.xml <!--hive的相关配..
2021-07-06 13:26:53
452
原创 字符串和日期的相互转换(scala计算一年的第几天)
1.字符串转日期使用架包 java.text.SimpleDateFormatAPI: SimpleDateFormate设置输入日期的格式:var sdf = new SimpleDateFormat( " yyyy-MM-dd HH:mm:ss " );(为什么有的格式大写,有的格式小写,那是怕避免混淆,例如MM是月份,mm是分;HH是24小时制,而hh是12小时制。)字符串转日期日期:2008-07-10...
2021-06-27 16:34:56
443
原创 正则表达式大全
一、校验数字的表达式1. 数字:^[0-9]*$2. n位的数字:^\d{n}$3. 至少n位的数字:^\d{n,}$4. m-n位的数字:^\d{m,n}$5. 零和非零开头的数字:^(0|[1-9][0-9]*)$6. 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7. 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$8. 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$9. 有两.
2021-06-26 23:12:13
236
原创 Scala_数据结构与集合
数据结构概述 数据结构(Data Structure) 1. 数据结构讨论的是在抽象层面上一组具有一定关系的数据元素的存储及处理。
2021-06-21 18:22:49
78
原创 HSQL命令大全
一、DDL 操作注:SCHEMA/DATABASE 是相同的概念,只是叫法不同而已--创建数据库/SCHEMA,表,视图,函数,索引CREATEDATABASE/SCHEMA,TABLE,VIEW,FUNCTION,INDEX--删除数据库/SCHEMA,表,视图,索引DROPDATABASE/SCHEMA,TABLE,VIEW,INDEX--清空表TRUNCATETABLE--修改数据库/SCHEMA,表,视图ALTERDATABASE/SCHEM...
2021-06-16 09:08:07
2650
原创 YARN入门
Yarn是第二代Hadoop的重要组成部分,它和HDFS共同成为Hadoop的基础, 让Hadoop变得更加成熟、更开放。Yarn的出现使集群资源利用率大大提升,双层调度模式有避免了JobTracker的并发瓶颈,可插拔的调度器又似的Yarn可以满足不同类型的调度需求。本文所解决的问题:Yarn是什么?统一资源管理和调度模型有哪些?YARN的全称是Yet Antother Recourse Negotiator,翻译过来就是“另一种资源协调者”这种说法可能会让读者产生疑惑,或者可以更准确的说是“
2021-06-15 15:15:08
197
转载 大数据从零到1
一、前言之前写了篇面经 《一个月面试近20家大中小厂,在互联网寒冬突破重围,成功上岸!》,有不少小伙伴留言和私信我关于大数据学习路线,以及咨询我一些关于有工作经验想转行大数据的问题,只言片语也讲不清,我花了一个月整理了一份我当初学习的大数据学习路线,从最基础的大数据集群搭建开始,希望能帮助到大家。不过在开始之前,我还是希望大家能想清楚,如果自己很迷茫,为了什么原因想往大数据方向发展,还有就是我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器
2021-06-15 14:15:08
295
原创 大数据技术之技术概要
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理.
2021-06-15 09:28:12
308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人