
笔记
樱花庄青山七海
先有再优,持续重构
展开
-
kudu&impala总结
kudu简介kudu安装使用过程中遇到的问题总结kudu和impala整合,在IDE中实现对kudu表的操作1_kudu简介什么是kudu?官网:https://kudu.apache.org/官网定义:Kudu is a columnar storage manager developed for the Apache Hadoop platform. Kudu shares ...原创 2019-03-02 21:28:38 · 2702 阅读 · 0 评论 -
hadoop总结
1、架构模型1、1.xHDFS:NameNode:主节点,管理集群中的各种数据;DataNode:从节点,主要用于存储集群中的各种数据;SecondaryNameNode:元数据信息的辅助管理。MapReduce:JobTracker:主节点,接受用户的计算请求任务,并分配任务给从节点;TaskTracker:负责执行任务。2、2.xYarn:ResourceManager:...原创 2019-03-31 17:58:22 · 191 阅读 · 0 评论 -
linux一些操作
1_输出linux文件的第几列awk -F "-" '{print $1}' xxx参数解释:-F “ ” 分隔符$0 代表输出所有列$(NF) 表示最后一列原创 2019-04-10 17:34:13 · 103 阅读 · 0 评论 -
flume总结
撤原创 2019-04-07 19:40:21 · 98 阅读 · 0 评论 -
第一范式(1NF)、第二范式(2NF)、第三范式(3NF)
参考:https://www.zhihu.com/question/24696366(解释的非常详细)范式(NF),可以把它粗略地理解为一张数据表的表结构所符合的某种设计标准的级别。第一范式:是对关系模式的基本要求。不满足第一范式的关系,不能称为关系型数据库。符合第一范式的关系,每个属性都不可以再分割。但是如果仅仅满足第一范式:仍然存在数据冗余过大、插入异常、删除异常、修改异常等的问题。...原创 2019-04-09 13:28:37 · 1545 阅读 · 0 评论 -
Spark Steaming管理kafka的offset
https://blog.youkuaiyun.com/u010454030/article/details/78535003https://blog.youkuaiyun.com/u010454030/article/details/78554643https://blog.youkuaiyun.com/u010454030/article/details/78660643原创 2019-04-16 11:20:06 · 203 阅读 · 0 评论 -
脚本-杀掉某个进程
ps -ef|grep QuorumPeerMain|grep -v grep |awk ‘{print $2}’ |xargs kill -9原创 2019-04-09 18:52:18 · 579 阅读 · 0 评论 -
find/locate查找指令
参考:http://blog.chinaunix.net/uid-24648486-id-2998767findfind . -name "*.log" -ls //在当前目录查找以.log 结尾的文件, 并显示详细信息。find /root/ -perm 777 //查找/root/目录下权限为 777 的文件find . -type f -name "*.log" //查找...原创 2019-04-09 19:25:07 · 341 阅读 · 0 评论 -
Kafka总结
1、Kafka特点:高吞吐,低延时2、大多数消息队列(消息中间件)都是基于JMS(java message service)标准实现的,Apache Kafka 类似于JMS的实现3、有什么用?(消息队列有什么用?)答:作为缓冲,来异构、解耦系统。用户注册需要完成多个步骤,每个步骤执行都需要很长时间。代表用户等待时间是所有步骤的累计时间。为了减少用户等待的时间,使用并行执行执行,有多少个...原创 2019-04-13 00:26:05 · 154 阅读 · 0 评论 -
Redis总结
1、redis的是一个内存数据库, 由C语言编写, 数据以key-value的形式来存储2、redis提供了丰富的数据类型, 其有string、list、hash、set、sortedSet五种类型需要注意: redis中的数据类型指的都是value的数据类型, 其key只有string类型3、redis的中的所有的操作都是原子性的, 从来保证数据的完整性五种数据类型的特点和应用场景1...原创 2019-04-13 00:50:16 · 158 阅读 · 0 评论 -
Spark对数据倾斜的八种处理方式
https://blog.youkuaiyun.com/weixin_38750084/article/details/82721319原创 2019-04-16 11:34:48 · 203 阅读 · 0 评论 -
ELK总结
Logstash组件:– Shipper-发送日志数据– Broker-收集数据,缺省内置 Redis– Indexer-数据写入概念对比Relational DB -> Databases -> Tables -> Rows -> ColumnsElasticsearch -> Indices -> Types -> Documents...原创 2019-04-14 22:56:56 · 227 阅读 · 0 评论 -
Hive总结
建表语句1、分隔符:row format delimited fields terminated by ‘\t’2、格式:stored as textfile3、存储路径:location ‘/user/stu2’4、根据查询结果创建表:create table stu3 as select * from stu25、根据已经存在的表结构创建表:create table stu4 lik...原创 2019-04-15 13:36:28 · 125 阅读 · 0 评论 -
hive导出到csv
hive -e "set hive.cli.print.header=true; sql语句" |grep -v "WARN" > 文件路径/文件.csv原创 2019-05-10 18:48:28 · 3152 阅读 · 0 评论 -
Spark Streaming总结
1、什么是Spark Streaming类似于Storm,用于流式数据的处理,有高吞吐量和容错能力强的特点。2、Spark Streaming的数据流向原创 2019-04-07 19:28:28 · 331 阅读 · 0 评论 -
Spark SQL总结
1、DataFrame和RDD的区别左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么,DataFrame多了数据的结构信息,即schema。这样看起来就像一张表了。...原创 2019-03-23 00:09:56 · 586 阅读 · 0 评论 -
linux常用指令总结
1_服务启动service xxx start后台不挂断启动:原创 2019-03-08 20:38:41 · 126 阅读 · 0 评论 -
Spark总结整理
一、简介为什么学spark?Spark是一种快速、通用、可扩展的大数据分析引擎,是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。spark为什么比mr快?1_基于内存2_线程替代进程spark的启动和web页面?/export/servers/spark/sbin/start-all.sh //若配置HA,b...原创 2019-03-08 21:01:13 · 286 阅读 · 0 评论 -
Hive整合Hbase
Hive整合Hbase的必要性?1、Hbase介绍Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。1)线性扩展,随着数据量增多可以通过节点扩展进行支撑;2)数据存储在hdfs上,备份机制健全;3)通过zookeeper协调查找数据,访问速度快。2、Hive介绍Hive是基于Hadoop的一个数据仓库工具。1)底层数据存储在hdfs上;2)提供HQL查询功能,本质...原创 2019-03-10 09:34:59 · 237 阅读 · 0 评论 -
Phoenix使用介绍
Phoenix简介Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询HBase数据,它相当于一个Java中间件,提供jdbc连接。Phoenix的特点就是,它只能查Hbase,别的类型都不支持,也正因如此,它在操作Hbase上的性能超过了Hive和Impala。为什么用Phoenix?1)可以用SQL语句操作Hb...原创 2019-03-10 10:11:56 · 503 阅读 · 0 评论 -
Impala总结整理
一、impala介绍二、impala-shell语法一、impala介绍impala是什么1、impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。2、基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。...原创 2019-03-14 19:47:56 · 479 阅读 · 0 评论 -
mysql日期函数总结
一、字符串截取&拼接二、选取日期时间的各个部分三、个性化选择日期(日期在一周、一月、一年中是第几天等等)一、字符串截取&拼接很多mysql需求包含对日期进行一些操作,而给定的日期实际上是字符串类型,这就需要我们对String进行一些操作,获取其中的日期信息。1、字符串截取:substring_index(“aaa_bbb_ccc”,&am原创 2019-03-14 20:59:19 · 210 阅读 · 0 评论 -
flink总结
flink简介什么是flinkflink是一个分布式计算引擎,支持流计算和批计算(本质是实时流计算,以流做批)。为什么用flink目前我们我们熟知的大数据计算引擎有mapreduce、spark、storm等等,那为什么还要有flink呢?1)基于内存计算,比hadoop快;2)基于流计算,比spark延迟低;3)比storm吞吐量大。flink虽然年轻,但越来越受到阿里等大公司的...原创 2019-03-11 09:39:38 · 373 阅读 · 0 评论 -
hive调优
1、fetch抓取(hive可以避免进行mapreduce) hive.fetch.task.conversionHive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。该属性修改为more以后,在全局查找、字段查找、limit查找...原创 2019-03-20 22:29:25 · 166 阅读 · 0 评论 -
hive总结
1、数据库存储位置1、默认存储路径:hdfs的/user/hive/warehouse在hive-site.xml中由hive.metastore.warehouse.dir决定。2、创建数据库时可以指定存储路径create database myhive2 location '/myhive2';...原创 2019-03-20 23:36:20 · 105 阅读 · 0 评论 -
Hbase总结整理
1_hbase介绍1_hbase介绍什么是hbase?1、hbase是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统;2、是一个典型的key/value系统;3、仅能通过主键(row key)和主键的range来检索数据,不支持join等复杂操作,计算和存储能力主要依靠横向扩展。hbase集群结构...原创 2019-03-12 19:16:52 · 816 阅读 · 0 评论 -
reduceByKey一个巧妙的用法
用spark做一个反爬虫项目的时候,需要记录很多记录中的最后一条,例如(1,2),(1,3),(1,8),(2,11),(2,7),(3,2),(3,9)要获得(1,8),(2,7),(3,9),熟悉spark的同学都知道可以通过groupByKey然后取.length-1个可以解决,但是有个更简单的办法,就是用reduceByKey((x,y)=>y),其中y就是最后值。引申:reduc...原创 2019-03-21 21:17:09 · 2175 阅读 · 0 评论 -
Lua语法介绍
Lua介绍1、Lua 是一种轻量小巧的脚本语言,用标准 C语言编写并以源代码形式开放, 其设计目的是 为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。2、Lua 中有 8 个基本类型分别为:nil、boolean、number、string、userdata、function、thread 和 table。Lua语法1_注释-- 单行注释 --[[ 多行注释 --]...原创 2019-03-19 11:52:44 · 350 阅读 · 0 评论