
大数据
MathThinker
http://www.maththinker.cn/caijp
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据下的TopK算法
在大数据背景下,TopK问题是一个很常见的问题。常见到这类问题基本在任何从事大数据相关的工作中都会用到。而我以前面试和大数据相关的岗位时也基本每次都会被问及这一问题或者这一问题的简单变种。因此,写本文详细介绍一下在大数据背景下TopK问题的解决方法,供大伙学习学习,尤其是让即将面临找工作面试的同学在面对这类问题时心里有个底。 该问题的求解目标很简单,即从一堆数据中挑出...原创 2016-05-27 20:30:57 · 6820 阅读 · 0 评论 -
老板/员工流式并行计算模型
随着大数据时代的到来,人们越来越频繁地需要处理越来越大规模的数据。传统的单线程处理模式已经远远不能满足人们的需要,于是各种分布式计算系统如雨后春笋般不断涌现,其中包括了基于Map-Reduce并行计算的Spark,Hadoop等系统,以及Hdfs,HBase之类的基于分布式存储系统。不过这些系统固然能够处理人们难以想象的海量数据,但由于这类系统考虑了方方面面的繁琐问题,导致这些分布...原创 2016-06-25 21:15:24 · 2540 阅读 · 0 评论 -
大数据下的多维TopK算法
在数周前所发表的博文《大数据下的TopK算法》中介绍了求解大数据时代中几乎是最为经典的TopK的过程。虽然大数据技术使得大规模数据下的TopK问题得到了有效的解决,但是对于一些该问题的拓展,单单靠大数据技术是无法获得令人满意的解决方案。本文所述的多维数据下的TopK问题就是这一类问题。如果该算法直接采用现有的TopK解决方案,那么一次又一次的运行大数据的过程将会使算法的求解变得令人感...原创 2016-06-19 11:25:29 · 2876 阅读 · 0 评论