- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Spark笔记
Spark笔记1.spark产生的目的spark产生:为了替代Mapreduce,解决Mapreduce计算短板Hadoop生态体系:hdfs+zokeeper +mareduce/hive+hbase+storm+mahot+其他工具;spark体系:hdfs+zokeeper +spark+hbase+storm+mahot+其他 工具。2.spark的设计初衷设计一个统一的计算引擎解决所有的各类型计算,包含计算类型:1.离线批处理;2.交互式查询3.图计算4.流失计算5.机器学习
2021-05-12 15:32:40
205
原创 MySQL8.0新特性集锦
MySQL8.0新特性集锦默认字符集由latin1变为utf8mb4在8.0版本之前,默认字符集为latin1,utf8指向的是utf8mb3,8.0版本默认字符集为utf8mb4,utf8默认指向的也是utf8mb4。注:在Percona Server 8.0.15版本上测试,utf8仍然指向的是utf8mb3,与官方文档有出入。MyISAM系统表全部换成InnoDB表系统表全...
2020-03-19 15:31:21
280
原创 阿里淘宝海量级数据技术架构
架构图按照数据的流向来划分,我们把淘宝数据产品的技术架构分为五层(如图1所示),分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。在数据源层实时产生的数据,通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地...
2020-03-12 12:51:59
2243
原创 BAT谷歌级公司万亿海量级数据分页秒级查询实现
1.时间轴数据分库分表因为订单数据始终是倒序排序不支持分页怕影响性能2.查询最新db数据库 比如db203.查询最新表 比如 db20 table200=mysql滚动分页实现此处按10条页=============1.查询首页的语句 select * from table200 where xxx=条件 order by create_time desc limit ...
2020-03-08 09:07:23
1689
原创 亿级海量单库分表查询优化算法
1.拆分表数据因为目前数据库部分表数据快破亿了,所以到了必须拆表的地步了,把单表比如biz_process目前7000万的数据,按照时间段平均拆分到biz_process1,到biz_process18,每张表400万,因为BAT黄金单表分割最好不超过500万。2.建立全局拆表记录表(sys_sub_table)建立sys_sub_table字段为ID 表名 拆表最新序号 更新时间,...
2020-03-05 17:26:46
711
亿级单库分表算法设计方案.rar
2020-03-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅