
hadoop
文章平均质量分 90
iteye_15107
这个作者很懒,什么都没留下…
展开
-
Hadoop-- 海量文件的分布式计算处理方案
csdn的一个关于hadoop的分布式处理方案,存档。原帖:http://blog.youkuaiyun.com/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一...原创 2013-10-15 13:46:50 · 123 阅读 · 0 评论 -
结构化文本处理时的表达式计算
JAVA不直接支持动态解析文本文件中的表达式,只能通过手工拆分字符串再递归调用来实现,这需要编写大量代码,过程复杂难以维护。使用集算器来辅助Java编程,这些问题就不需要自己写代码了,下面我们通过例子来看一下具体作法。 文本文件formula.txt是tab分割的文本文件,第一行是列名,有3个列No、type、exp,其中exp列是公式。现在需要动态解析exp中的公式,...2015-03-04 14:44:16 · 159 阅读 · 0 评论 -
快速实现对结构化文本的条件过滤
直接用Java实现文本文件中数据按条件过滤会有如下的麻烦: 1、文件不是数据库,不能用SQL访问。当过滤条件变化时需要改写代码。如果要实现象SQL那样灵活的条件过滤,则需要自己实现动态表达式解析和求值,编程工作量非常大。 2、文件太大时不能一次性装入内存处理,而采用逐步读入方式在考虑到性能时又会涉及到文件缓冲区管理、拆行计算等复杂编程。 使用集算器来辅助J...2015-02-17 10:04:04 · 227 阅读 · 0 评论 -
报表动态可挂接算法的简便实现
在报表项目中,有些报表的数据计算方法会经常改变。例如:某企业员工的实际工资是通过绩效得分计算出的,算法经常变动,需要在不改动其他代码的情况下用新算法替换旧算法。如果用Java来实现计算的话,虽然可以实现动态可挂接计算模块,但是存在缺乏基础类库、占用多余内存等问题。 采用润乾集算报表可以很好的解决这些问题,实现低耦合、热部署的动态挂接算法。集算报表挂接算...2015-02-13 16:44:15 · 197 阅读 · 0 评论 -
将数据放至数据库外或文件系统来提高报表系统性能
在报表应用中,针对历史数据查询的报表占比很大,这类报表的特点是:第一,数据变化小,查询的历史数据几乎不会发生变化;第二,数据量大,数据量随时间跨度增大而不断增加。如果数据始终存放在数据库中,由于大多数数据库的JDBC性能都很低下(JDBC取数过程要做数据对象转换,比从文件中读取数据会慢一个数量级),这时涉及数据量较大或在并发较多的时候,报表的性能会急剧下降。如果能将这些变化不大...2015-02-06 15:06:43 · 134 阅读 · 0 评论 -
脚本式计算能力对报表工具的重要性
在报表项目开发中常常会出现自定义数据源的情况。这是因为有很多结构化计算比较复杂,需要多步骤完成。sql或者报表本身的计算能力并不适合完成这种过程化计算,所以报表程序员会借助于报表API,使用Java程序来完成。 例如这个《各地区销售情况分析表》: 该报表是根据订单表统计各(预置)时间段内,各地区的订单数量、订单金额汇总。其中各时间段范围为: 1996年圣诞前:date &...2015-02-03 11:31:25 · 128 阅读 · 0 评论 -
集算器序表对象与R的数据框对比
集算器和R语言都是典型的数据处理及分析语言,都具有二维结构化数据对象,都擅长多步骤的复杂计算。但两者的二维结构化数据对象在底层机制上存在较大的差异,这种差异导致了集算器对于结构化数据的计算更为擅长,特别适合应用程序员进行商业计算,而R对矩阵计算更为擅长,特别适合科学工作者进行科学计算或工程计算。 集算器的二维结构化数据类型是序表对象(TSeq)。序表对象以...原创 2014-12-16 16:04:27 · 163 阅读 · 0 评论 -
集算器和R语言处理外存文本文件的对比
作为数据计算语言,集算器和R语言都提供了丰富的功能用来处理外存中的文本文件。两者在基本用法上有很多相似之处,但区别也很明显,比如处理列宽固定的文件、读写指定的列、处理大文本文件,计算性能等方面。下面详细对比两者的异同。 1、基本功能对比 描述: sales.txt共有六列,列之间以制表符(\t)分割,行之间以换行符(\n)分割,其中第一行为列名。请将该文件读入内...2014-12-03 15:52:31 · 167 阅读 · 0 评论 -
Hive/Impala/集算器性能对比测试报告(下)——关联计算
上篇进行过Hive/Impala/集算器的分组计算的性能测试,本篇进行关联计算的性能测试及结果说明。 窄表的关联计算测试数据样本 被关联表p_narrow。 列数:11 行数:5亿 文本状态下所占空间:120.6G。 数据结构: personid int,name string,sex int...原创 2013-12-27 08:02:38 · 362 阅读 · 0 评论 -
Hive/Impala/集算器的性能对比测试报告(上)
目的 对比Hive、集算器、Impala这三种大数据解决方案在分组汇总和关联计算时的性能差异。 硬件环境 PC数量:4 CPU:Intel Core i5 2500(4核) RAM:16G HDD:2T/7200rpm Ethernet adapter:1000M软件环境 操作系统:CentO...原创 2013-12-23 16:52:58 · 285 阅读 · 0 评论 -
集算器与R语言的循环函数对比
循环函数可以遍历数组或集合中的每个成员,可以将结构复杂的循环语句用简单的函数形式表达出来,可以减少代码量并提高可读性。集算器和R语言都支持循环函数,下面将对比两者用法上的异同。1、生成数据 生成1到10之间的奇数。 集算器:x=to(1,10).step(2) 代码中,to(1,10)生成了1到10之间的连续整数,step函数根据上一步计算结果间隔取数,最终结果是[1,...2015-12-25 17:35:44 · 357 阅读 · 0 评论 -
集算器和R语言处理外存文本文件的对比
作为数据计算语言,集算器和R语言都提供了丰富的功能用来处理外存中的文本文件。两者在基本用法上有很多相似之处,但区别也很明显,比如处理列宽固定的文件、读写指定的列、处理大文本文件,计算性能等方面。下面详细对比两者的异同。1、基本功能对比 描述: sales.txt共有六列,列之间以制表符(\t)分割,行之间以换行符(\n)分割,其中第一行为列名。请将该文件读入内存,再原样写入新...2015-12-22 09:42:44 · 155 阅读 · 0 评论 -
不适合使用Hadoop的场景
转自:http://dev.yesky.com/296/35381296.shtml。 Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。 当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop! 实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop至多算是一个不好的选择,对另一些问题来说,选择Hadoop...原创 2013-11-21 11:04:51 · 1292 阅读 · 0 评论 -
Hadoop中小规模集群的并行计算缺陷
注:写这篇文章的初衷是因为Hadoop炒得有点太热,很多用户现有数据规模并不适用于Hadoop,但迫于扩容压力和去IOE(Hadoop的廉价扩展的确非常有吸引力)而尝试。尝试永远是件正确的事儿,但有时候不用太突进,可以调优或调需求,发挥现有系统的最大效用为上策。-----------------------------------------------------------------...2013-11-07 08:15:16 · 245 阅读 · 0 评论 -
Hadoop如何实现关联计算
选择Hadoop,低成本和高扩展性是主要原因,但但它的开发效率实在无法让人满意。 以关联计算为例。 假设:HDFS上有2个文件,分别是客户信息和订单信息,customerID是它们之间的关联字段。如何进行关联计算,以便将客户名称添加到订单列表中? 一般方法是:输入2个源文件。根据文件名在Map中处理每条数据,如果是Order,则在foreign key上加标记...2013-10-23 16:25:18 · 258 阅读 · 0 评论 -
应该在什么时候使用Hadoop
原帖地址:http://blog.chinaunix.net/uid-301743-id-3925358.html存档,某些观点与我不谋而合,过度技术化不可取,且hadoop并非万能。--------------------------------------------万能的分割线--------------------------------有人问我,“你在大数据和Hado...原创 2013-10-16 11:12:42 · 134 阅读 · 0 评论 -
结构化文本文件中非单行记录的处理
集算器能够协助java处理结构化文本的各种计算工作,但碰到非单行记录的情况就不能直接计算了,这时需要先进行一些必要的变换处理。 比如,文本文件Social.txt中存储着网站的访问记录,每三行对应一条记录,现在需要整理出这些记录,再进行下一步的计算。记录需要按(UserID, Time, IP, URL, Location)的格式取出使用或存放在文件...原创 2015-03-06 14:42:49 · 175 阅读 · 0 评论