- 博客(58)
- 资源 (6)
- 收藏
- 关注
原创 Solr查询详解
这节重点是讲Solr的查询相关的知识点一、 查询参数说明 在做solr查询的时候,solr提供了很多参数来扩展它自身的强大功能!以下是使用频率最高的一些参数! 1、常用 q - 查询字符串,这个是必须的。如果查询所有*:* ,根据指定字段查询(Name:张三 AND Address:北京)fq - (filter query)过虑查询,
2016-10-17 10:52:10
7914
转载 Java 并发工具包 java.util.concurrent 用户指南
译序本指南根据 Jakob Jenkov 最新博客翻译,请随时关注博客更新:http://tutorials.jenkov.com/java-util-concurrent/index.html。本指南已做成中英文对照阅读版的 pdf 文档,有兴趣的朋友可以去 Java并发工具包java.util.concurrent用户指南中英文对照阅读版.pdf[带书签] 进行下载。
2016-08-24 22:58:31
786
原创 数据库检索 索引之--- B 树
B树索引是一个典型的树结构,始终是平衡的,也就是说 从Root节点到 Leaf 节点的任何一个路径都是等距离的。其包含的组件主要是: 叶子节点(Leaf node):包含条目直接指向表里的数据行。 分支节点(Branch node):包含的条目指向索引里其他的分支节点或者是叶子节点。 根节点(Branch node)
2016-07-22 10:42:06
5014
原创 三届(2012、2011、2009)KDD Cup内容、数据源和论文
根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表
2016-07-11 13:48:12
2862
1
原创 eclipse构建maven scala 项目 编译成功
eclipse构建maven+scala+spark工程 eclipse构建maven scala 项目 编译成功
2016-07-05 13:28:36
14168
原创 mapreduce 案例解析
mapreduce 求各个部门的人数和平均工资 案例解析 http://www.tongtongxue.com/archives/2972.html
2016-07-03 18:29:52
998
转载 详细探究Spark的shuffle实现和hadoop mapreduce shuffle原理
详细探究Spark的shuffle实现和hadoop mapreduce原理 详细探究Spark的shuffle实现和hadoop mapreduce原理
2016-06-25 16:36:47
5592
转载 HBase深入分析之RegionServer
http://www.binospace.com/index.php/hbase-in-depth-analysis-of-the-regionserver/?utm_source=tuicool&utm_medium=referral所有的用户数据以及元数据的请求,在经过Region的定位,最终会落在RegionServer上,并由RegionServer实现数据的读写操作。
2016-06-22 23:28:00
4838
原创 Hadoop中Partition解析 和 storm的grouping
解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时
2016-06-19 14:23:03
992
原创 使用scala实现pageRank算法
使用scala实现pageRank算法 使用scala实现pageRank算法 使用scala实现pageRank算法 使用scala实现pageRank算法
2016-06-02 19:38:31
3048
原创 Flume 数据采集系统 性能优化和关键问题汇总
Flume 性能优化 和关键问题汇总 Flume 数据采集系统 性能优化和关键问题汇总 Flume 数据采集系统 性能优化和关键问题汇总
2016-06-01 20:02:56
13504
转载 Spark RDD API详解 Map和Reduce
转载地址 : https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是
2016-05-26 19:21:56
417
转载 Spark编程指南笔记
Spark编程指南笔记本文是参考Spark官方编程指南(Spark 版本为1.2)整理出来的学习笔记,主要是用于加深对 Spark 的理解,并记录一些知识点。1. 一些概念每一个 Spark 的应用,都是由一个驱动程序构成,它运行用户的 mai
2016-05-26 18:55:25
1171
原创 Flume+kafka+spark streaming+scala(sbt编译) 例子演示
Flume+kafka+spark streaming+scala(sbt编译) 例子演示 原创。
2016-05-18 14:20:34
3106
原创 Scala中的高阶函数
文/霍斯曼Scala混合了面向对象和函数式的特性。在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。在函数式编程语言中,你只需要将明细动作包在函数当中作为参数传入即可。在本文中,你将会看到如何通过那些使用或返回函数的函数来提高我们的工作效率。作为值的函数在Scala中,函数是“头等
2016-05-08 15:02:34
1037
转载 Spark RDD详解
RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
2016-05-07 18:23:21
2522
原创 HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的 机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统。
2016-04-18 10:51:23
821
转载 Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)
转载至: http://blog.youkuaiyun.com/licongcong_0224/article/details/12972889历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)PS:转载请注明来源:http://blog.csd
2015-08-27 16:20:46
689
转载 分布式系统开发常见问题-1. session的复制与共享 2. 分布式缓存的设计
1. session的复制与共享在web应用中,为了应对大规模访问,必须实现应用的集群部署.要实现集群部署主要需要实现session共享机制,使得多台应用服务器之间会话统一, tomcat等多数主流web服务器都采用了session复制以及实现session的共享. 但问题还是很明显的:在节点持续增多的情况下,session复制带来的性能损失会快速增加.特别是当session中
2015-08-06 15:36:00
657
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人