
大数据
文章平均质量分 75
高达一号
这个作者很懒,什么都没留下…
展开
-
大数据_SLA,SLO,SLI 名词解读
简单说就是一切提供给客户的有用功能都可以称为服务。服务一般会由服务提供者提供,提供这个有用功能的组织被称为服务提供者,通常是人加上软件,软件的运行需要计算资源,为了能对外提供有用的功能软件可能会有对其他软件系统的依赖。客户是使用服务提供者提供的服务的人或公司。原创 2023-08-15 21:52:16 · 587 阅读 · 0 评论 -
大数据_Hadoop_Parquet数据格式详解
之前有面试官问到了parquet的数据格式,下面对这种格式做一个详细的解读。原创 2023-07-31 19:33:19 · 2030 阅读 · 0 评论 -
SQL_Hive_数据倾斜优化大全
有一些算法基础的同学都知道排序操作在软件领域是开销非常大的操作,目前大规模应用的几大排序算法的时间复杂度中最好的也是O(nlogn),即随着数据量的增长而非线性的增长。通常这个条件都会满足的,因为如果不满足的话,说明key值非常多,非常稀疏,也不会产生倾斜的困境了。在优化战略生态部门的任务dwd_ocloud_dau_info_d任务的时候,我们发现任务的运行时间一直在增长,一度达到7个小时,直到8月1号便再也跑不成功,总是OOM(内存不够),即使将executor的内存调高到10G依然解决不了问题。转载 2023-07-25 12:26:24 · 261 阅读 · 0 评论 -
大数据_结构化数据与非结构化数据
结构化数据对于所有数据值拥有相同的属性。例如,每个预订记录都可以拥有这些属性:预订名称、活动名称、活动日期和预订金额。结构化数据的另一个特点是可以存储在关系数据库中,可以使用结构化的查询语言SQL进行管理。结构化数据是具有标准化格式的数据,可供软件和人类高效访问。它通常以表格形式呈现,其中行和列清楚地定义数据属性。由于结构化数据的定量性质,计算机可以有效地处理结构化数据以获得洞见。例如,一个包含名称、地址和电话号码等列的结构化客户数据表,可以提供诸如客户总数和客户数量最多的地区等洞见。原创 2023-07-24 14:41:44 · 501 阅读 · 0 评论 -
SQL_SQL_常见面试问题
问题类型 :窗口函数使用。原创 2023-07-20 17:33:00 · 233 阅读 · 0 评论 -
大数据_面试_ETL组件常见问题_spark&flink
通过webui定位那个表以及jobid,jobid找对应的执行计划。spark数据处理得数据倾斜与解决方案 aqe。flink cdc如何确保幂等与一致性。spark 3.0 AQE动态优化。spark与flink的主要区别。sparksql如何调优。hdfs的常见的压缩算法。spark sql调优。hbase的数据倾斜。原创 2023-07-19 15:19:26 · 794 阅读 · 0 评论 -
大数据_大数据常见面试问题
下面分为几个方向罗列一下最近遇到的大数据面试问题。原创 2023-07-19 15:16:20 · 359 阅读 · 0 评论 -
大数据_HBase_HBase 中的 bloom-filter
参考文章:1.详解布隆过滤器的原理、使用场景和注意事项https://www.jianshu.com/p/2104d11ee0a22.数学之美:布隆过滤器https://zhuanlan.zhihu.com/p/72378274什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点...原创 2020-05-05 15:24:42 · 381 阅读 · 0 评论 -
大数据_ 分布式一致 广播协议 Paxos, Zab , Raft 协议对比
其他参考:分布式事务与一致性算法Paxos & raft & zabhttps://blog.youkuaiyun.com/followmyinclinations/article/details/52870418今天我对 Paxos, Zab, Raft 一一做了细致的了解。趁着还比较熟悉的时间节点,对这三个协议的异同做一个对比。下面是这三个协议描述的链接地址:希望...原创 2019-03-18 22:12:48 · 1564 阅读 · 0 评论 -
大数据_Zookeeper_Raft 协议
在学习完 paxos , zab , 协议后,我们接下来对 比较火的 分布式一致性广播协议,Raft 协议了解一下。这篇文章讲解的非常好,我就没有自己再写一篇文章,直接摘录过来了。原文地址:https://www.sohu.com/a/198360462_7127630 - Raft协议和Paxos的因缘 读过Raft论文《In Search ...转载 2019-03-18 21:24:16 · 2102 阅读 · 0 评论 -
大数据_Zookeeper - Paxos 算法
Paxos 协议描述的场景: 在古希腊有一个Paxos 的小岛,岛上采用议会的形式来通过法令,议会中的议员通过信使进行消息的传递。值得注意的是,议员跟信使都是兼职的,他们随时有可能会离开议会厅,并且信使可能会重复的传递消息,也可能一去不复返。 因此,议会协议要保证在这种情况下,法令仍能够正确的产生,并且不会出现冲突。下面对 Paxos 算法进行描述:假设...原创 2019-03-18 19:31:42 · 452 阅读 · 0 评论 -
大数据_ 2PC , 3PC 协议详解
在大数据 / 分布式时代, 如何确保数据的一致性 已经成为了 一个不可避免的 讨论话题。下面我们对 2PC , 3PC , Paxos 协议进行一下了解。2PC 协议2PC , Two-Phase-Commit 的缩写,即两阶段提交, 两阶段提交协议被认为是一种一致性协议,用来保证分布式系统的一致性。阶段一 : 提交事务请求1.事务查询:...转载 2019-03-18 16:59:17 · 642 阅读 · 0 评论 -
Linux_NTP 网络同步 -> ntpd / CDH6
参考文章: 解决CentOS7下用ntpdate同步时间问题https://blog.youkuaiyun.com/qq_27754983/article/details/69386408 Linux配置ntp时间服务器(全)https://www.cnblogs.com/quchunhui/p/7658853.html Cloudera 建议使用 NTP 使 Hadoo...原创 2018-12-11 23:04:53 · 2075 阅读 · 0 评论 -
Linux_ SSH 配置免密登录,集群互通
参考文章:1.集群间多台机器SSH免密码登录(两种方法实现)https://blog.youkuaiyun.com/timchen525/article/details/755796112.hadoop启动集群的免密码登陆设置(超详解附流程图)https://blog.youkuaiyun.com/qq_25838777/article/details/806534813.Hadoop集群配置之免密登...原创 2018-12-14 17:22:30 · 1743 阅读 · 2 评论 -
大数据_Kafka_Storm_整合_Could not initialize class org.apache.log4j.Log4
(一) 现象与解决方法昨天在进行storm kafka 的整合开发时候报了一个错误,记录一下Caused by: java.lang.NoClassDefFoundError: Could not initialize class org.apache.log4j.Log4jLoggerFactory当然我们的第一个反应是log4j这个包缺失(当然也有这种情况,需要首先确认),原创 2016-08-23 10:35:49 · 4495 阅读 · 0 评论