
大数据
文章平均质量分 88
LaZY_apple
这个作者很懒,什么都没留下…
展开
-
Maven实战(编辑中)
参考:《Maven实战》目录Maven使用入门编写POM编写主代码Maven使用入门编写POMPOM(Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖,等等。一个例子:第一行:XML头、指定了该xml文档的版本和编码方式project元素:所有pom.xml的根元素,声明了一些POM相关的命名空间及xsd元素,不是必须的,但使用这些属性能够让第三方工具(如IDE中的XML编辑器)帮助我们快速编辑POM。modelVersio原创 2021-01-04 17:13:00 · 371 阅读 · 0 评论 -
Flink原理、实战与性能优化(编辑中)
一、基本架构client将作业提交到jobmanagerJobManager整个集群的master节点,负责整个flink集群的任务调度和资源管理,整个集群有且仅有一个活跃的JobManager。从客户端获取提交的应用,根据TaskManager上TaskSlot使用情况,为提交的作业分配TaskSlot资源,并命令TaskManager启动应用。TaskManager负责具体任务执行和对应任务在每个节点资源的申请和管理...原创 2020-11-16 13:28:55 · 13286 阅读 · 2 评论 -
《计算广告 第2版》第二部分-在线广告产品逻辑(阅读学习记录)(编辑中)
本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。原创 2020-06-17 18:40:59 · 483 阅读 · 0 评论 -
Redis学习记录(编辑中)
参考:黑马视频文章目录Redis的应用redis启动基本操作数据类型string基本操作扩展操作Redis的应用热点数据查询:热点商品、热点新闻、咨询任务队列:秒杀、抢购即时信息:排行榜、访问统计时效性信息:验证码、投票分布式数据共享分布式锁redis启动redis服务启动:redis-server.exe默认端口:6379(pid随机生成)客户端启动:redis-cli.exe基本操作set:set key valueget:get key获取帮助:help 命令数据类型原创 2020-06-12 14:39:54 · 576 阅读 · 0 评论 -
《计算广告 第2版》第一部分-在线广告市场与背景(阅读学习记录)
本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。第一章 在线广告综述免费模式的产品如何获取利润通过流量、数据和影响力这三项资产,将这三项资产通过商业产品转变成收入的过程就是商业化,数据变现和影响力变现都是在流量变现的基础上。广告活动的主线即出资人、媒体和手中三者利益博弈关系出资人(需求方):广告主、代表广告主利益的代理商、其他技术形态的采买方。媒体(供给方):媒体、其他技术形态的变现平台受众:被动参与方。品牌广告和效果广告品牌广告:目的是借原创 2020-05-31 23:33:06 · 570 阅读 · 0 评论 -
Hadoop基础知识
文章目录HadoopHDFSMapReduceHiveHadoopHDFSHDFS 分布式文件系统 读取和写入原理介绍HDFS中的角色NameNode:名称节点通常仅有一个,负责文件信息管理,切割文件,为文件分配指定位置保存。DataNode:数据阶段通常有多个,保存数据。写入原理: 当有文件要写入到HDFS的时候, 首先NameNode将文件按照指定大小切割, NameNode选取合适的DataNode列表, 写入第一快文件, 同时将该文件的第一个副本写入另原创 2020-07-29 10:10:19 · 219 阅读 · 0 评论 -
《大数据之路 阿里巴巴大数据实践》数据技术篇(阅读学习记录)
本文以作者学习记录为主,多数为文章自我理解总结,可能存在错误,仅供读者参考,欢迎留言纠错和交流。原创 2020-05-25 21:34:03 · 1631 阅读 · 1 评论 -
【大数据面试】最爱问的MapReduce面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 15:19:36 · 5444 阅读 · 1 评论 -
【大数据面试】最爱问的spark面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 15:14:18 · 2784 阅读 · 0 评论 -
【大数据面试】最爱问的hive面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 15:03:07 · 5976 阅读 · 0 评论 -
Hive SQL
拼接函数(行转列):collect_set():把多个值去重拼接成一个数组collect_list():同上,不去重concat_ws():用指定分隔符,把数组拼成一个字符串–:concat_ws(分隔符,数组)字符串拼接:concat(v1,v2,v3)分割函数(列转行):split(字符串,分隔符):切割字符串split(字符串,起始索引):字符串部分截取lateral v...原创 2019-08-20 20:13:08 · 826 阅读 · 0 评论 -
【大数据面试】最爱问的flume面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 14:59:09 · 3414 阅读 · 1 评论 -
【大数据面试】最爱问的HDFS面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 15:24:52 · 3308 阅读 · 1 评论 -
Druid基础知识(编辑中)
Druidhttps://yuzhouwan.com/posts/5845/http://druidio.cn/实时,快速,切片,大数据(PB级),列式存储,分布式结合了OLAP分析数据库、时间序列数据库和全文检索思想集成kafka等消息队列和hdfs等文件系统数据源可以使Hadoop、spark、storm和kafka等使用mvcc解决并发问题Druid 聚合会将数据进行预聚合...原创 2019-08-08 21:38:50 · 305 阅读 · 1 评论 -
protocol buffers基本使用
官方文档:官方文档链接中文版:文档链接文章目录@[toc]特点:数据结构语法:第一行:字段定义:注释:保留字段使用其他类型嵌套类型常见关键字特点:灵活、有效、自动配置的序列化结构数据,类似xml,但是更小,更快,更简单数据结构文件类型后缀为.proto定义message作为类型每个message有一个或多个字段,每个字段有名字和值类型运行后,产生一个类,包含每个字段和对应...原创 2019-08-07 10:59:25 · 687 阅读 · 0 评论 -
生产中遇到的pb问题
起因:需求变更需要修改代码中pb字段(改名)结果:上线后无法更新离线表结构原因:不允许更改pb,只能添加新的字段解决办法:无解原创 2019-08-19 21:08:03 · 311 阅读 · 0 评论 -
hive 日期函数
一、unix_timestamp函数用法1、unix_timestamp() 得到当前时间戳2、如果参数date满足yyyy-MM-dd HH:mm:ss形式,则可以直接unix_timestamp(string date) 得到参数对应的时间戳3、如果参数date满足yyyy-MM-dd HH:mm:ss形式,则我们需要指定date的形式,在进行转换unix_timestamp(‘200...转载 2019-09-23 10:59:39 · 368 阅读 · 0 评论 -
flume通道选择器
原文链接:https://blog.youkuaiyun.com/xiao_jun_0820/article/details/38116103前几篇文章只有一个项目的日志,现在我们考虑多个项目的日志的收集,我拷贝了一份flumedemo项目,重命名为flumedemo2,添加了一个WriteLog2.java类,稍微改动了一下JSON字符串的输出,将以前requestUrl中的"reporter-api"...转载 2019-04-24 19:47:56 · 719 阅读 · 0 评论 -
【大数据面试】最爱问的Kafka面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-30 14:56:33 · 2750 阅读 · 0 评论 -
大数据的流处理和批处理及其框架
原文链接简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,...转载 2019-07-09 19:15:25 · 15673 阅读 · 3 评论 -
YARN知识点
hadoop的资源管理系统yarn的调度器FIFO调度器将应用放入一个队列中,依次运行缺点:如果先运行大作业,在后面的小作业会一直等待。容量调度器提前准备一个队列保证小作业提交后,就能运行公平调度器作业提交后,集群从正在运行的作业分配出一部分的资源。...原创 2019-05-14 17:24:17 · 215 阅读 · 0 评论 -
HDFS知识点总结
冷知识复本三个复本不区分主从关系联邦HDFS为了解决hadoop1.0中namenode的压力问题而引入。可以添加namenode管理不同命名空间HA2.0中支持两个namenode,3.0中可以一主多从快缓存对于频繁访问的文件,其对应的块可能被显示地缓存在datanode的内存中。检查校验和命令fs -checksumhdfs的读取和写入:https://blog.cs...原创 2019-04-23 16:30:43 · 511 阅读 · 0 评论 -
spark源码分析
rdd变换:textfile()加载文件:返回hadoopRDD(创建HadoopRDD之前,先将hadoopConfiguration进行广播)调用map方法,最终返回MapPartitionsRDD详细流程:https://blog.youkuaiyun.com/weixin_43093501/article/details/89492421rdd提交:sparkcontext运行作...原创 2019-04-30 23:06:24 · 729 阅读 · 0 评论 -
flume知识点
分布式日志收集系统sink是单线程的可以使用Avro sink做汇总使用sink组做单点故障和负载均衡channel:可选channel:设置source属性selector.optional = channel1b复用选择器:https://blog.youkuaiyun.com/weixin_43093501/article/details/89501497agent:是一个...原创 2019-04-24 19:50:47 · 234 阅读 · 0 评论 -
RDD变换源码分析
原文链接:https://blog.youkuaiyun.com/xw_classmate/article/details/53667653一、 RDD概述 RDD (Resilient Distributed Dataset) ,一个弹性分布式数据集,Spark中的基本抽象。代表一个不变(只读)的、可以并行操作的元素的分区集合。Spark中原生的RDD...转载 2019-04-24 14:38:10 · 264 阅读 · 0 评论 -
spark核心知识点总结
特点大规模快速通用的计算引擎(hadoop 花费90%时间用户rw)DAG:有向无环图使用80+算子(操作符),容易构建并行应用基于Hadoop的mr,扩展mr模型高效实用,内存型集群计算,提高app处理速度。支持语言多spark模块core //通用执行引擎,提供内存计算和对外部数据集的引用。SQL //构建在core之上,引入新的抽象SchemaRDD,提供了结构...原创 2019-04-17 21:51:20 · 959 阅读 · 0 评论 -
HDFS读取和写入剖析
读取客户端通过DistributedFileSystem对象的open()方法打开希望读取的文件。1.这个对象通过RPC(远程过程调用)调用namenode来确定文件的起始块位置DistributedFileSystem类返回一个FSDataInputStream输入流对象。客户端对这个输入流调用read()方法,连接距离最近的文件中第一个块所在datanode。验证data...原创 2019-04-21 22:59:05 · 239 阅读 · 0 评论 -
使用mycat部署mysql集群(分片,读写分离,主从复制)
在s201,s202,s203上安装MySQL(安装jdk)配置MySQL 5.7的yum源sudo tee -a /etc/yum.repos.d/mysql-community.repo << EOF[mysql57-community]name=MySQL 5.7 Community Serverbaseurl=http://repo.mysql.com/yum/m...原创 2019-04-13 14:32:40 · 1749 阅读 · 2 评论 -
MR知识点
默认原创 2019-05-12 12:39:02 · 406 阅读 · 0 评论 -
Hive知识点总结
hive是构建在hadoop上的数据仓库框架hive与mysqlmetastore是hive元数据的集中存放地metastore默认使用内嵌的derby数据库作为存储引擎Derby引擎的缺点:一次只能打开一个会话使用Mysql作为外置存储引擎,多用户同时访问hive与传统数据库传统数据库是数据写入数据库时检查数据(写时模式),查询效率高hive在查询时对数据检查(读时模式),...原创 2019-05-16 22:14:42 · 330 阅读 · 0 评论 -
【大数据面试】最爱问的Hbase面试(简单又详细,个人整理)
hdfs面试题MapReduce面试题hive面试题kafka面试题hbase面试题spark面试题flume面试题原创 2019-06-24 14:06:17 · 2486 阅读 · 0 评论 -
spark操作hive(可解决绝大部分的问题)、sparksql操作hive
目标:想要完成使用spark在windows的idea下操作hive(对hive中的表查询等)最终代码(java):import org.apache.spark.sql.SparkSession;import java.io.Serializable;/** * Created by Administrator on 2017/4/3. */public class SQLH...原创 2019-07-07 21:18:25 · 21170 阅读 · 14 评论 -
【大数据面试】MapReduce工作过程
参考链接:HTTPS://BLOG.youkuaiyun.com/QQ_25843323/ARTICLE/DETAILS/80020566HTTPS://ZHUANLAN.ZHIHU.COM/P/62249397HTTPS://BLOG.youkuaiyun.com/OLD_SIX_LAOBADAOLA/ARTICLE/DETAILS/78368286原创 2019-06-17 14:08:09 · 993 阅读 · 0 评论 -
Namenode如何保存文件信息Namenode如何查找文件
原文链接过程总览hdfs文件均存放在datanode上,namenode上不会存放文件。当客户上传一个文件后,namenode会先对文件作相应的处理(比如按照block大小进行分割)。这里主要讲述存放的一个整体过程以及如何快速的找到存放的节点位置信息。实现namenode的源码中有一个与文件系统存储和管理有关的关键类FSNameSystem,里面有以下的一些概念:INode: 用来存放文件...转载 2019-06-16 16:01:09 · 1893 阅读 · 0 评论 -
Secondary Namenode
Namenode的元数据 (目录中的文件)VERSION文件:包含运行hdfs的版本信息,其中重要属性blockpoolID:记录了一个Namenode管理的命名空间中的所有文件。编辑日志:客户端执行写操作,这些事务会记录到其中。映像文件(Fsimage):包含整个文件系统所有的文件和目录,文件系统元数据的完整永久性检查点。Namenode和Secondary Namenode由于在Na...原创 2019-06-16 15:29:14 · 169 阅读 · 0 评论 -
在Linux上查看Namenode的元数据
1.进入~目录2.进入hadoop目录3.进入dfs/name/current目录4.进入后即为元数据信息原创 2019-06-16 14:56:33 · 1322 阅读 · 0 评论 -
【大数据面试】HDFS读写原理
HDFS写入剖析:发请求:客户端向NameNode发出写文件请求。检查:检查是否已存在文件、检查权限。若通过检查,直接先将操作写入编辑日志(详情见NameNode文件目录),并返回输出流对象。切块:client端按128MB的块切分文件,形成数据队列。返回管线:NameNode挑选一组合适的DataNode(按照默认副本存放策略),称为一个管线。将其返回给客户端。默认副本存放策略:副...原创 2019-06-19 18:13:46 · 445 阅读 · 0 评论 -
MR实现MapJoin和ReduceJoin
原文链接 需求订单数据表 order.txt id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0001 3商品信息表 product.txt...转载 2019-05-17 21:52:04 · 726 阅读 · 0 评论 -
nginx集成kafka
nginx日志直接被kafka消费,省去flume组件。安装nginx的c的库,编译,安装nginx集成kafka插件,编译安装nginx的c的库1.安装gitsudo yum install -y git2.切换到/usr/local/src目录,然后将kafka的c客户端源码clone到本地cd /usr/local/srcsudo yum update -y nss curl ...原创 2019-04-16 09:18:26 · 673 阅读 · 0 评论