
大数据
扁豆的主人
进无止境,不忘初衷;坚持不懈,乐在其中。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
查询优化之“分库分表”
当主数据量越来越大时,写操作会越来越缓慢,此时可以考虑分表分库。举个实际例子:随着市场推广趋势,订单很快就会上亿,每天有100万的新订单,在不久的将来数据库的I/O和CPU很可能会支撑不住。为了使系统能承受这种日百万级新订单的压力,项目组最终决定使用分表分库:将订单表拆分,进行分布存储。原创 2023-07-24 22:19:11 · 191 阅读 · 0 评论 -
查询优化之“冷热分离”
冷热分离就是将数据库分成冷库和热库,冷库存放那些走到终态,不常使用的数据;热库存放还需要修改,经常使用的数据。比如有些电商网站默认只让查询3个月内的订单,那些已完结状态且超过三个月的订单,就可以存入冷库。原创 2023-07-21 18:05:08 · 301 阅读 · 0 评论 -
流框架flink、storm、spark streaming对比
性能对比应用场景需要关注流数据是否需要进行状态管理 At-least-once或者Exectly-once消息投递模式是否有特殊要求 对于小型独立的项目,并且需要低延迟的场景,建议使用storm 如果你的项目已经使用了spark,并且秒级别的实时处理可以满足需求的话,建议使用sparkStreaming 要求消息投递语义为 Exactly Once 的场景;数据量较大,要求高吞吐低延迟的场景;需要进行状态管理或窗口统计的场景,建议使用flink...原创 2021-09-07 16:06:21 · 435 阅读 · 0 评论 -
流式数据采集和计算组件 flume、filebeat、logstash对比
总结Flume更注重于数据的传输,对于数据的预处理不如Logstash。在传输上Flume比Logstash更可靠一些,因为数据会持久化在channel中。数据只有存储在sink端中,才会从channel中删除,这个过程是通过事物来控制的,保证了数据的可靠性。Logstash是ELK组件中的一个,一般都是同ELK其它组件一起使用,更注重于数据的预处理,Logstash有比Flume丰富的插件可选,所以在扩展功能上比Flume全面。但Logstash内部没有persist queue,所以在异常情...原创 2021-09-07 15:41:35 · 2668 阅读 · 0 评论 -
数据收集之flume与kafka
概念Flume是管道流方式,提供了很多的默认实现。Kafka是一个可持久化的分布式的消息队列。对比Kafka是一个通用的系统,可以有许多生产者和消费者共享多个主题。相比之下,Flume是一个专用工具,被设计为旨在往HDFS,HBase发送数据。如果数据被多个系统消费,使用kafka;如果数据被设计给Hadoop使用,使用Flume。使用Kafka意味着你准备好了编写你自......原创 2020-01-02 20:50:13 · 1129 阅读 · 0 评论 -
推荐算法
相似推荐 就是将用户喜欢的商品的类似的商品推荐给用户。推荐步骤:定义相似性公式,和相似性维度及权重 根据公式计算出商品的相似性商品集 将相似性商品集推荐给用户 协同过滤 就是将与用户有相同兴趣爱好的用户喜欢的商品推荐给用户。推荐步骤:找出有相同兴趣爱好的用户集合 获取这些用户喜欢的商品集 过滤掉用户已购买或已关注的然后推荐给用户 内容推荐 ...原创 2019-10-06 18:10:01 · 215 阅读 · 0 评论 -
用户画像和商品画像
概念用户画像可以分为两部分,一类是还原商品或特定场景下的用户特征,包括性别比、年龄结构、职业分布、收入水平、地域分布、渠道分布等,另一类则是还原单一用户的基本属性、兴趣爱好、消费能力、社交属性、操作习惯、使用频率、流失原因等。目标科学决策——让数据说话,数据驱动决策。了解用户特征,把握用户诉求。做用户满意的产品,推荐用户喜欢的商品。找到为产品买单的人群,优化用............原创 2019-10-03 12:54:13 · 3210 阅读 · 0 评论 -
A/B Test
概念 传统意义上的工程测试是验证产品功能、性能、易用性等是否满足预期,而A/B测试是通过用户行为分析用户心理,优化产品的用户体验。通过运行A/B测试,比较各版本对目标的转化效果,最后选择效果最好的版本正式发布给全部客户,使业务快速增长的同时,降低创新和迭代风险。步骤 制定目标->现状分析->假设构建->A/B/n版本制作->数据...转载 2019-06-14 10:54:42 · 958 阅读 · 0 评论 -
智能推荐系统
概念推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将商品准确地推荐给需要它的用户,帮助用户发现那些他们感兴趣的商品。推荐系统就是自动联系用户和物品的一种信息发布工具。推荐系统不仅能帮助用户发现那些他们可能会感兴趣,但却不那么容易发现的东西,还能能够扩展用户的视野,并且预测用户的行为。联系用户和物品的常用方式:用户的注册信息、用户行为记录、利用好友等。推荐系统的三个参与方:用户、推荐网站、内容提供方。评测方法在线实验AB测试是一种很常用的在线评测算法的实验方法。它通过一定原创 2019-04-11 10:24:07 · 6496 阅读 · 0 评论