
大数据
文章平均质量分 76
CodeZhuxh
这个作者很懒,什么都没留下…
展开
-
浅谈Hive SQL的优化
目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本文结合Hive SQL的运行原理谈一谈Hive SQL的优化问题。1. 数据过滤应尽早做,同时只选择所需要的列这个原则在传统的RDMS数据中应该也适用,因为数据提前过滤了之后进行join或者其他操原创 2022-02-17 14:01:32 · 6605 阅读 · 6 评论 -
Spark SQL PERCENTILE分析调研
Spark percentile原理https://zhuanlan.zhihu.com/p/340626739https://www.cnblogs.com/myseries/p/10880641.htmlHive percentile采用的是特殊的数据结构,先通过一轮聚合把每个数值出现的次数用元组的形式存储起来,再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理,那么 Mapper 是需要在生成时不断通过聚合计算更新,其内部实现基于 h原创 2021-03-29 19:12:37 · 2219 阅读 · 0 评论 -
推荐算法-基于协同推荐(CF)
推荐算法CF写在前面概念分类基于用户(User-based)的推荐基于物品(Item-based)的推荐归一化总结冷启动写在前面最近几天将之前学习的CF基于协同过滤推荐算法笔记整理了一下,。CB算法在上一篇文章中有做整理。时光机:基于内容推荐算法-CB有需要的同学可以点赞收藏一下概念基于协同是在基于内容的基础之上发展而来的,协同过滤是一种在推荐系统中广泛采用的推荐方法。这种算法基于一个“物以类聚,人以群分”的假设,喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤的推荐系统一般应用于有用户原创 2020-07-07 19:38:09 · 3394 阅读 · 3 评论 -
Hadoop分布式文件系统-HDFS概要以及2.0的新增功能介绍
HDFSHDFS的设计HDFS的概念数据块NameNode和DataNodeSecondary NameNodehadoop2.0新增的功能HDFS的设计超大文件"超大文件"是指具有几百MB、GB甚至是几百TB大小的文件。流式数据访问一次写入、多次读取不适合低时间延迟的数据访问不适合大量的小文件由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。每个文件、目录和数据块的存储信息大约占150字节。假设块大小为12原创 2020-06-28 19:12:19 · 793 阅读 · 0 评论 -
天下武功-唯快不破-Spark
Spark写在前面知识点整理什么是Spark?spark和hadoop作业的区别Spark相对于MR解决了什么问题RDD(弹行分布式数据集):spark参数调优spark开发调优spark常用组件写在前面最近抽时间在看hadoop权威指南以及spark快速大数据分析两本书,整理了一些知识点。需要的请点赞收藏。知识点整理什么是Spark?spark是一个用来实现快速而且通用的集群计算平台。在速度方面,spark拓展了广泛使用的MR计算框架,而且更高效的支持更多计算模型,例如交互式查询和流式处理。原创 2020-07-02 20:43:37 · 363 阅读 · 0 评论 -
推荐算法-基于内容推荐(CB)
推荐算法CB一 为什么要做推荐系统二 基于内容推荐是什么?1 引入Item属性的Content Based推荐2 引入User属性的Content Based推荐三 正排表与倒排表正排倒排一 为什么要做推荐系统由于信息过载,导致对信息反映的速度远远低于信息传播的速度;信息量远远的高于用户受众所能消费、承受和需要的信息量;且有大量无关的冗余数据信息会严重干扰用户的视线以及降低用户的产品体验。于是推荐系统便是为了解决此类问题而产生。当然搜索系统也能解决此类问题二 基于内容推荐是什么?基于内容的推荐原创 2020-07-07 15:08:53 · 1704 阅读 · 0 评论