
集算器
文章平均质量分 81
chaochao52001
这个作者很懒,什么都没留下…
展开
-
SQL 转置计算
转置是 SQL 常见算法,本文细分为行转列、列转行、动态转置、关联转置等多种情况,分别进行算法分析并给出案例代码。对于 SQL 难以实现的转置,还给出了方便的 esProc 解决方案, 通过以下文章了解详情。转置即旋转数据表的横纵方向,常用来改变数据布局,以便用新的角度观察。有些转置算法比较简单,比如行转列、列转行、双向转置;有些算法变化较多,比如动态转置、转置时跨行计算、关联转置等。这些转置算法对日常工作多有助益,值得我们学习讨论。基础转置行转列和列转行是最简单的转置算法,形式上互为逆运算,具转载 2020-11-22 21:18:58 · 1017 阅读 · 0 评论 -
数据文件合并与拆分
【摘要】本文介绍将多个文本文件和 Excel 文件合并成一个文件,或者将一个文件拆分成几个小文件时,如何处理会遇到的几种情况,并用 esProc SPL 举例实现。在数据处理业务中,经常要把文件结构相同或近似相同的数据文件合并成一个文件,或者将一个比较大的数据文件拆分成小的数据文件。本文将介绍文本文件和 Excel 文件合并及拆分会遇到的几种情况,并提供用 esProc SPL 编写的代码示例。esProc 是专业的数据计算引擎,SPL 中有完善的文件导入、导出及目录操作函数,非常适合做数据文件的合转载 2020-11-22 21:11:33 · 521 阅读 · 0 评论 -
Excel 表间关联运算的示例
用 Excel 处理数据时,经常会涉及到多页 sheet 数据之间的关联运算需求,用 vlookup 可以完成部分简单关联,但较复杂的情况时仍然不太方便,常常需要多次操作才能完成。另外,当要做关联的文件比较多,需要批量处理时,虽然可以借助 VBA 来实现,但 VBA 不是个专门为结构化计算设计,实现计算非常繁琐。这里给出一些关联运算的示例,分析解决方法并给出 SPL 代码。SPL 是专业计算引擎 esProc 使用的语言,用于处理结构化数据运算非常方便,比 vlookup 及 VBA 更简单。一、引用复转载 2020-11-22 21:04:03 · 494 阅读 · 0 评论 -
Excel 字符串拆分
用 Excel 处理数据时,有时需要对字符串进行拆分。对于比较简单的拆分,使用 Excel 函数可以顺利完成,但碰到一些特殊需求,或者拆分的规则比较复杂时,则很难用 Excel 实现了。这里列出一些拆分需求示例,分析拆分难点,并提供 SPL 解决代码。SPL 是专业计算引擎 esProc 使用的语言,用于处理结构化数据运算非常方便,对于字符串拆分的运算也很简单。一、规则单词拆分这里有一份车间采购产品清单,清单的每一项包含了需要采购的品牌以及产品型号。现在想要把每一项的品牌以及型号拆分后单独列到后面。转载 2020-11-22 20:49:26 · 343 阅读 · 0 评论 -
Excel 特殊分组汇总示例
在 Excel 中分析数据时,往往会用到数据透视表。通过透视表,可以对数据从不同维度、不同类别来汇总和分析。但是透视表功能很简单,分组依据也很固化。需要将部分数据合并、分区间或者允许重复的特殊条件来分组汇总时便没法实现。针对 Excel 透视表的分组难点,本文列出一些常用的分组示例,解析难点并提供 SPL 解决代码。SPL 是专业计算引擎 esProc 使用的语言,用于处理结构化数据的运算非常方便。一、常规完全分组这里有一份 2019 年的产品销售表,表中记录了每个销售对某产品的销售明细。现在想要按转载 2020-11-22 20:34:37 · 463 阅读 · 0 评论 -
数据分析师如何应对数据库取数后的离线分析
大多数公司都会专门为数据分析单独准备一个数据库做日常分析,用来做数据查询和人工分析后的结果存储,日积月累,临时表众多,数据库变得非常巨大,如果同时做多个查询,经常需要等很久才能出结果,提升硬件性能又需额外昂贵的花费。因为缺乏好用工具的支持,数据分析人员的离线分析动作总是先由一个事先写好的复杂查询或经多步骤处理后临时表导出的数据,之后在 Excel 中用 vlookup(),过滤器等来完成,当数据更新或范围扩大后又要重新取数,重新在 Excel 中操作。如果能有一个桌面工具每次会实时读取单表数据,既能完成转载 2020-05-18 09:15:40 · 278 阅读 · 0 评论 -
如何使用集算器?
集算器是计算结构化数据最简洁高效的工具,根据应用场景、数据规模可灵活选择适当的使用方式,即可作为桌面工具或命令行独立使用,也可作为Java类库嵌入集成,还可作为服务器(单机或多机)对外提供服务。特别值得一提的是,集算器作为报表与数据源之间的计算数据源,仅需通过配置JDBC接口,编写简单SPL脚本,就能统一解决多样性数据源、复杂计算等各报表工具中需要自定义开发的问题。下载官方产品社区获取最新的集算器安装包及试用授权安装根据操作系统下载安装包,授权是通用的。Windows下安装十分简单,内置JR转载 2020-05-15 10:27:20 · 175 阅读 · 0 评论 -
如何在数据处理中实现补足空白行效果
几乎任何形式的文档和报表都离不开分页,报表如何分页在 B/S 模式的 Web 报表中也是个常见的问题,特别是当大数据量的 Web 报表需要打印输出时,不可能将所有数据打印到一张纸上,这时必然涉及到报表的分页。其中,一个常常遇到的实际问题是:当数据比较多时,在分页后,常常最后一页只有几条数据,这样的报表被打印出来以后,看起来不是很美观。那么,是否能在 Web 报表最后一页不足行的时候自动用空白行补充...转载 2019-08-01 13:49:21 · 420 阅读 · 0 评论 -
填报脚本之轻松搞定复杂表的数据入库
你还认为填报表只能完成标准行列布局的数据填报?还在因表样复杂,填报分片错乱,设计不够灵活而苦恼?还在为业务填报表样设计灵活,但数据不能实时入库而感到惋惜?那要先“祝贺”看到这段话的你了,这个难题遇到集算器脚本迎刃而解了。(撒花撒花….)下面来举栗证实一下。了解基本情况:某单位上级下发统一报表模板其中包含5 列(即 5 个字段),下级操作时随时可能在原表基础上增加字段,且增加的字段...转载 2019-08-01 13:45:22 · 151 阅读 · 0 评论 -
存储过程性能低怎么破?
报表应用中实现数据源计算经常会使用存储过程,但同时也带来多方面的问题。首先,存储过程的包只提供一层分类,无法用树形结构组织,容易造成代码管理混乱。而有些程序员更是直接在现场在线修改存储过程,也不利于代码管理。其次,升级存储过程时需要数据库的写权限,容易对数据安全造成影响。另外,由于 SQL 固有的一些问题(数据无序、缺乏集合、无法引用、分步不彻底,等等),使得存储过程的编程也比较困难。很多情况...转载 2019-05-27 14:16:23 · 243 阅读 · 0 评论 -
如何解决报表关联计算中的性能问题
报表开发过程中经常要在报表中完成数据关联计算,有时为了降低报表制作复杂度,会将关联关系放到可视的报表模板中完成;而有时则必须在报表中完成关联,如多数据源、异构数据源的情况。在报表中做关联往往导致报表效率不高,计算过慢,从而引发性能问题。为此,润乾报表提供了高性能数据关联方式(需要结合集算器实现),可以显著提升报表的计算效率。这里就通过一个常见的多源关联分片报表实例来说明润乾报表的实现过程:报表...转载 2019-05-09 10:21:07 · 223 阅读 · 0 评论 -
脚本中如何做填报数据校验
在很多填报表项目的开发过程中,为了保证数据规范且有效,常会在报表中设置各种校验以达到目的,比如:工资金额最多只允许包含两位小数、邮政编码必须是全数字组成的 6 位数且首位数字不能是 0 ,等等。这些要求,我们都可以利用报表工具提供的数据类型校验、单元格校验等手段来实现,但是总有“意外”情况出现,比如:小计校验要求分组内的各值相加等于分组小计,这种类型的校验有什么难点?怎么实现?下面我们举例实际看一...转载 2019-04-22 09:16:30 · 273 阅读 · 0 评论 -
数据计算中间件技术综述
## 传统企业大数据架构的问题 上图是大家都很熟悉的基于 Hadoop 体系的开源大数据架构图。在这个架构中,大致可以分成三层。最下一层是数据采集,通常会采用 kafka 或者 Flume 将 web 日志通过消息队列传送到存储层或者计算层。对于数据存储,目前 Apache 社区提供了多种存储引擎的选择,除了传统的 HDFS 文件和 HBase,还提供了 Kudu、ORC、Parquet...转载 2018-10-18 23:11:11 · 915 阅读 · 0 评论 -
10 行代码,集算器实现写诗机器人
集算器不仅有大数据计算,还有诗和远方。最近看到不少写诗机器人的新闻,于是尝试用集算器简单地实现一个。这个实现真的很简单,简单到只有10几行代码,请看实现步骤: 1下载字典和诗词从网上找一个用于分词的字典文件,里面记录着每个中文词汇的词性。我从GitHub上找了一个,稍微处理之后保存到集文件dict.btx。下载宋词三百首的txt文件,去掉空格和换行,以及其它文字以外的字符,得到一个...转载 2018-10-08 17:48:14 · 247 阅读 · 0 评论 -
轻量级内存计算引擎
内存计算指数据事先存储于内存,各步骤中间结果不落硬盘的计算方式,适合性能要求较高,并发较大的情况。 HANA、TimesTen等内存数据库可实现内存计算,但这类产品价格昂贵结构复杂实施困难,总体拥有成本较高。本文介绍的集算器同样可实现内存计算,而且结构简单实施方便,是一种轻量级内存计算引擎。下面就来介绍一下集算器实现内存计算的一般过程。一、 启动服务器集算器有两种...转载 2018-10-17 22:26:12 · 1792 阅读 · 0 评论 -
10 行代码解决漏斗转换计算之性能优化
大话数据计算性能优化 大数据分析的性能优化,说道底,就优化一个事情:针对确定的一个计算任务(数据确定,结果确定),以最经济的方案得到结果。这个最经济的方案主要考量三个成本:时间成本、硬件成本、软件成本。时间成本:根据计算任务的特点,能容忍的最长时间各不相同。那些 T+0 的计算任务,实时性要求就比较高,T+1 再算出结果就失去了意义。 硬件成本:可以使用的硬件资源,对一个公司来说...转载 2018-10-17 22:22:28 · 579 阅读 · 0 评论 -
SQL 难点解决:序列生成
1、 生成连续整数序列MySQL8: with recursive t(n) as (select 1union allselect n+1 from t where n<7)select * from t; Oracle:select level nfrom dual connect by level<=7; SPL: ...转载 2018-10-17 22:18:24 · 543 阅读 · 0 评论 -
学会这些“套路”,excel 合并汇总都不是事
1. 问题背景 在日常工作中我们经常遇到具有相同表头的 Excel 文件,需要将它们合并到同一个工作表中再进行分析。当文件比较多时,手工合并表格通常是件很麻烦的事情,而如果数据量很大,用 Excel 自带的 VBA 来处理也会经常卡死。今天我就来分享一个专业的外部数据工具——集算器,掌握了集算器处理 Excel 多表合并的方法,就不用再编写复杂且低效的 VBA 代码了,简单的几行 SPL...转载 2018-09-25 15:43:26 · 1161 阅读 · 0 评论