
大数据
文章平均质量分 95
周雄伟
这个作者很懒,什么都没留下…
展开
-
基于spark集群的券商个性化推荐系统架构设计最佳实践
一、券商实施个性化推荐项目的必要性1.1 个性化推荐技术发展背景目前,随着用户接收到的信息量爆炸般增长,传统的推荐以及服务方式的边际收益正在不断减少,用户个性化的需求变得越来越多。大数据实时个性化服务,主要基于大数据用户画像、产品画像建设成果,结合实时流计算框架,以客户需求为中心进行服务,做内容的主动创新和服务资源的精准配置,在恰当的时间将个性化的服务以合适的方式交付给需要的客户。目前涉猎到的应用...转载 2018-05-03 14:10:27 · 4475 阅读 · 1 评论 -
Impala与Presto性能比较
【转自 https://blog.youkuaiyun.com/u012551524/article/details/79124532】下面是Presto、Impala这两种典型的内存数据库的简单测试比较,当然这种内存数据库类似的还有spark sql,这种数据库在大数据量,多表关联查询时,会展现出自己的优势,下面是一组impala和presto的性能对比图:环境准备:1台32G内存、2台16G内存,没有完全...转载 2018-06-13 08:28:06 · 13529 阅读 · 1 评论 -
实时流Streaming大数据:Storm,Spark和Samza
当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。Apache Storm 在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topology中,数据是在spout之间传递,它发射数据流作为不可变的key-value匹配集合,这种k...转载 2018-08-05 15:19:13 · 1011 阅读 · 0 评论 -
Apache 流框架 Flink,Spark Streaming,Storm对比分析
本文由 网易云 发布。https://www.cnblogs.com/163yun/p/9007769.html1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一...转载 2018-07-31 21:59:34 · 1623 阅读 · 0 评论 -
提高机器学习模型性能的五个关键方法
如何提高机器学习模型性能, 可从五个关键方面入手。1. 数据预处理2. 特征工程3. 机器学习算法4. 模型集成与融合5. 数据增强以下是各个方面的具体分析和方法:[ 说明:1、这里主要是各个关键方法的知识汇总梳理,便于集中学习,具体的实际应用内容后续单独写。 2、参考整理了很多大拿的文章和资料,但忘了记录来处,如有不适当转载的,请留言,我看到后第一时间删除。 ]第...原创 2018-09-08 11:52:10 · 34852 阅读 · 4 评论