- 博客(56)
- 资源 (10)
- 收藏
- 关注
原创 延云行业搜索数据库 在大数据生态中位置和重要性
延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战随着大数据在各行业的应用,互联网及物联网技术的迅猛发展,数据正在大量产生、被存储并被快速的利用,很多行业的每天的数据增量就达到了千亿级,总量则超过了数万亿。比如,在公共安全行业,海量的上网行为被记录,电子围栏系统时刻采集海量移动设备信息;在交通行业,一个中等城市的卡口系统,每天采集的过车记录到达数百万条到千万条不等;在电信行业,每
2017-08-14 15:06:17
857
1
原创 关于Solr/ES,我们不得不知道的十件事
这里谈一下笔者多年使用Solr/ES的所总结出的Solr/ES十点不足:1、Solr/ES分词的不足之处对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整,导致数据查不全,因分词导致漏查以及缺失数据,对于模糊检索有精确匹配要求的场景下,业务存在较大的风险。如何玩转Solr/ES,能够自定义拓展任意的分词类型,如词库分词,语义分词,拼音分词等
2017-07-05 18:46:00
1769
原创 生产环境上的HADOOP安装部署注意事项(HDP版)
正式部署前请详细阅读基础环境这三篇,非常重要!!!YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解一、安装前的准备请参考第三章的基本环境注意事项,准备基础环境,这个很重要二、软件下载1.请从HDP官方下载 HDP与HDP-UTILShttp://public-repo-1.hortonworks.com/HDP/centos6/2.x
2017-05-14 15:51:15
1867
原创 20170405YDB资源汇总
YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试在Spark中通过YDB实现比原生Spark性能高100倍的多表关联大索引技术大数据的未来YDB的历史2017chinahadoop-千亿大数据 即席踪迹分析2016chinahadoop-基于Spark如何实现千亿大数据即席多维分析2015腾讯Hermes-大数据利器中的
2017-04-05 12:11:46
803
原创 Spark性能优化之通过YDB实现比原生Spark性能高100倍的多表关联
多表关联Join在Spark数据分析中是一个不可或缺的一部,我们以商品交易记录表(trade表)与用户信息表为例(user表)来阐述下如何实现高性能的多表关联分析。经常会遇到这种情形,我们需要先找出【某一个省份】【工商银行】【交易金额在150~160元】的所有用户,并通过与用户信息表进行关联得到该用户的手机号,性别,年龄,职业等信息。Spark的传统做法是对双表都进行暴力扫描,需要对tra
2017-04-03 14:07:51
1099
原创 延云YDB基于spark进行数据分析的一种新方式
YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。YDB的主要
2017-03-12 14:40:14
830
原创 基于spark的车辆分析
延云YDB车辆分析自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网、纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重
2017-03-12 13:58:43
7947
1
原创 超越spark性能300倍的性能测试
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,
2017-03-12 13:55:01
552
原创 基于spark排序的一种更廉价的实现方案-附基于spark的性能测试
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。 有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序
2017-03-07 22:44:58
407
原创 生产系统搭建spark,基础环境注意事项
YDB依赖环境准备一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。 经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。 这样的机器配置比较适合计算密集型的业务,但是如果是I
2017-03-06 17:17:29
1466
原创 spark性能调优与BUG修正
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spar
2017-03-06 17:14:02
1862
原创 那些年我们在spark SQL上踩过的坑
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spar
2017-03-06 17:13:45
11880
原创 spark性能调优与BUG修正
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spar
2017-03-06 17:12:01
923
原创 基于spark SQL之上的检索与排序对比性能测试
关于spark的性能,基于YDB的对比,做了一个测试,保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀spark默认的格式。
2017-03-06 16:33:19
2088
原创 YDB跟Solr Cloud、ElasticSearch区别
一、跟Solr Cloud、ElasticSearch区别 谈到YDB的索引技术,相信很多同学都会想到Solr、ElasticSearch。他们俩真可谓是大名鼎鼎,是两个顶级项目,最近有些同学经常问我,“开源世界有Solr、ElasticSearch为什么还要使用YDB?” 在回答这个问题之前,大家可以思考一个问题,既然已经有了Oracle、Mysql等数
2017-02-19 14:41:23
892
原创 YDB技术原理
第十二章YDB技术原理一、铺一条让Spark跑的更快的路 二、YDB的本质在Spark之上基于搜索引擎技术,实现索引和搜索功能。既有搜索引擎的查询速度,又有Spark强大的分析计算能力。可对多个字段进行关键字全匹配或模糊匹配检索,并可对检索结果集进行分组、排序、计算等统计分析操作。 三、多种技术组合-万亿数据秒级查
2017-02-19 14:38:03
932
原创 YDB场景精选
第十一章YDB场景精选一、多维检索与探索性分析1.IT运维日志、业务日志、交易流水日志的搜索与分析通过方便灵活的日志搜索分析,帮助用户及时发现问题l统一日志查询平台,程序故障定位平台 开发与运维人员经常需要登录线上生产系统,通过grep、tail、more、cat等命令去生产系统里查找故障原因,排查效率很慢。且在生产系统运维人员因错误的使用调试命令导致
2017-02-19 13:53:23
932
原创 YDB进阶使用详解
第十章YDB进阶使用详解一、Lucene原生查询语法的使用 YDB的索引本质上是Lucene索引,如果之前有使用Solr Cloud、ElasticSearch的朋友肯定对Lucene不陌生,对于Lucene有自己的强大的过滤筛选方式,YDB里面依然兼容这种语法方式。1.使用ydb_raw_query_s like 进行Lucene语法匹配示例:ydb
2017-02-19 13:29:52
3746
原创 YDB运维必读
一、YDB升级步骤1.停止YDB服务 通过./stop-all.sh来停止服务(注:HDP版本需要在管理页面上停止服务)2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份HIVE本地元数据库 本地元数据库是指Hive元数据库d
2017-02-19 12:51:48
2041
原创 如何升级YDB
一、YDB升级步骤1.停止YDB服务 通过./stop-all.sh来停止服务(注:HDP版本需要在管理页面上停止服务)2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份HIVE本地元数据库 本地元数据库是指Hive元
2017-02-19 12:16:20
500
原创 YDB函数
第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层 对于YDB系统来说,我们将索引与SPARK集成在了一起,但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理,大家可以注意下架构图里面的那两个箭头,注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看 二、YDB的S
2017-02-19 12:12:07
1348
原创 YDB基本使用详解
第七章YDB基本使用详解一、如何与YDB对接(交互)目前延云YDB提供如下几种方式l命令行的方式lWeb http接口的方式lJDBC接口的方式通过JAVA编程接入通过可视化SQL分析统计接入通过报表分析工具接入二、命令行接入进入ya100的安装目录的bin目录1.直接执行 ./conn.sh 即可。2
2017-02-19 12:07:25
4719
原创 基于原版Hadoop的YDB部署
YDB依赖环境准备一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。 经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。 这样的机器配置比较适合计算密集型的业务,但是如果是I
2017-02-19 11:52:33
472
原创 基于HDP版本的YDB安装部署
第三章 YDB依赖环境准备一、硬件环境硬件如何搭配,能做到比较高的性价比,不存在短板。合理的硬件搭配,对系统的稳定性也很关键。1.CPU不是核数越高越好,性价比才是关键。 经常遇到很多的企业级客户,他们机器配置非常高,CPU有128 VCore,256G内存,但是只挂载了1块8T的SATA硬盘,千兆网卡。 这样的机器配置比较适合计算密集型的业
2017-02-19 11:43:48
979
原创 大索引技术大数据的未来
一、大索引技术,大数据的未来 YDB并没有采用堆积机器,靠大内存和SSD硬盘的方式来提升计算速度。YDB采用索引技术, 在RDBMS中索引的概念大家一点都不陌生,但是在大数据里大家似乎没有听过,YDB将索引创建在HDFS中,通过索引技术,将大数据分门别类整理好,就像是一个新华字典的目录,通过目录可以快速到相关数据,避免了暴力的扫描,从而提升查询速度。1.当大数据使用上大
2017-02-19 11:19:10
803
原创 YDB基础
第二章 YDB基础一、YDB是什么? YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结
2017-02-19 11:16:39
4298
原创 大数据分析与处理
一、大数据分析与处理1.文件批处理 以MapReduce、Hive为典型代表,批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生,也就没有今天风风火火的大数据。 数据通常积累达到一个周期后定期运行,也就是所谓的T+1数据,即典型的T为一天,即数据延迟一天。 批处理的业务通常一
2017-02-19 11:08:23
1277
原创 大数据技术
一、大数据技术的发展的三个阶段1.存起来-等待机遇 2009年开始BAT大力发展Hadoop技术,这个期间主要解决海量数据的存储与简单分析问题。 既然大数据有价值,那么就先将数据存起来。要发挥数据的价值,我们先要有数据。n网站浏览点击行为日志存储n简单的PV与UV统计,满足基本需求n更注重存储能力、集群规模、扩展能力2.用
2017-02-19 11:05:31
616
原创 世界因大数据而 改变
不管你信也好,不信也好,大数据时代真的来临了。随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、HBase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间,攻陷了全部的大数据阵地。 一、世界因大数据而 改变1.有哪些我们所熟知的大数据? l物联网(IOT)
2017-02-19 11:02:09
564
原创 延云YDB对spark广播数据broadcast的Cleaner改进
由于SPARK-3015 的BUG,spark的cleaner 目前为单线程回收模式。大家留意spark源码注释其中的单线程瓶颈点在于广播数据的cleaner,由于要跨越很多太机器,需要通过akka进行网络交互。如果回收并发特别大,SPARK-3015 的bug报告会出现网络拥堵,导致大量的 timeout出现。但是单线程回收意味着回收速度一定,如果查询并发
2017-02-06 16:03:43
790
原创 历时三个月的反反复复测试,延云YDB版本v1.1.6正式发布
历时三个月的反反复复测试,延云YDB版本v1.1.6正式发布一、1000多项数据比对用例,近千种SQL。二、包括业界基准测试tpc-h,tpc-ds以及近一年积累的全部的案例SQL。三、循环生产数据,连续20天,100并发,1000万次数据比对。本版本release内容如下:一、修正大量spark内存泄露的BUG,从而提升YDB的稳定性 修正的内容如下
2017-02-04 13:52:24
2020
原创 【视频】如何只用4台虚拟机搞定500G共300亿条数据的秒级排序
有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,2016年的计算冠军为腾讯(原文地址为 http://www.youkuaiyun.com/article/a/2016-11-10/15841969),通过该文,我们可知这次排序比赛的硬件采用了512台IBM的OpenPOWER服务器和迈络思公司的100Gb互联技术,排序时间为98.8秒。每年巨头都会在排序上进行巨大的投入,可见排序性能对一个系统有多么重要! 排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据
2017-02-02 15:18:15
1239
原创 YDB针对范围查找所做的性能小改进(skiplist IO 分析)
范围查找,尤其是时间范围的查找,在日常检索中会被经常使用,在范围查找中跳跃表的利用与否对性能影响非常大。 我们对lucene的默认范围查找做了一个小实验,截获了每种SQL的IO读取明细,对IO情况做了测试与分析。测试结果如下普通的等值SQL分析-占用IO较小 筛选条件为:phonenum='13470881895' and amtdouble=50使用小范围
2017-01-30 14:57:20
825
原创 延云Ydb与 Solr/ES 的十点对比
一、分词solr/ES:对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整,导致数据查不全,因分词导致漏查以及缺失数据,对于模糊检索有精确匹配要求的场景下,业务存在较大的风险。YDB:内置的分词类型会确保查询准确度,不会出现漏查,内置的分词类型,很好的解决了lucene默认分词导致的查询数据缺失的问题。另外YDB可以自定义拓展任
2017-01-24 14:59:01
1701
原创 小改Spark sql,提升spark响应时间
测试发现,即使只有1条记录,使用 spark进行一次SQL查询也会耗时1秒,对很多即席查询来说1秒的等待,对用户体验非常不友好,特别是延云YDB,用户对响应时间要求比较苛刻,1秒与毫秒有本质的区别,有些用户这种差异感觉根本不可接受。针对这个问题,我们在spark与hive的细节代码上进行了局部调优,调优后,响应时间由原先的1秒缩减到现在的200~300毫秒。 以下是我们
2017-01-23 13:54:04
1312
原创 YDB与spark SQL在百亿级数据上的性能对比测试
按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为blockSort,目前支持tlong,tdouble,tint,tfloat四种数据类型。 由于blockSort是借助搜索的索引来实现的,所以,采用blockSort的排序,不需要暴力扫描,性能有大幅度为此,我们针对spark sql与YDB在排序性能上做了一个比较性的测试
2017-01-15 19:39:07
4026
2
原创 最近在SPARK上定位的几个内存泄露问题总结
最近为了测试延云YDB在高并发请求和持续性请求情况下的表现,发现了spark的不少关于内存泄露的问题,这些问题均在延云YDB提供的SPARK版本中得以修正,现将问题总结如下。1. 高并发情况下的内存泄露很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a) 在进行大量小SQL的压测过程
2017-01-05 14:26:58
7565
原创 大数据系统-在硬盘上需要注意的事情
逻辑卷的问题 一般很多linux的默认安装,会将磁盘直接以逻辑卷的方式挂载,逻辑卷的优点是后期的扩容以及调整磁盘非常的方便,看着比raid好用多了,但是默认的逻辑卷配置方式是只有一块盘在工作 ,其他几块盘都闲着,发挥不出来多块盘的性能,也就是说如果在逻辑卷里面挂了10块盘,那么默认的逻辑卷的配置,只能发挥出一块盘的性能。所以对于YDB系统来说,大家不要使用逻辑卷。
2016-12-30 17:28:54
2673
原创 YDB与Hive SQL在写法上的对比
目录普通查询SQL写法对比...2复杂查询SQL写法对比...4 普通查询SQL写法对比对比点HIVEYDB统计计数select count(*) from ydb_example_shu where ydbpartion= '2015'/*ydb.pushdown('-
2016-12-28 20:18:29
597
原创 记一次kafka数据丢失问题的排查
数据丢失为大事,针对数据丢失的问题我们排查结果如下。第一:是否存在数据丢失的问题? 存在,且已重现。第二:是在什么地方丢失的数据,是否是YDB的问题? 数据丢失是在导入阶段,数据并没有写入到Kafka里面,所以YDB也就不会从Kafka里面消费到缺失的数据,数据丢失与延云YDB无关。第三:是如何发现有数据丢失? 1.测试数据会一共创建365个分区,
2016-10-23 17:55:34
14176
YDB编程指南-预览版
2017-01-03
Spark性能测试报告-Spark SQL在不同存储格式下的性能对比
2016-02-20
延云ydbOnSpark的性能测试报告
2016-01-01
延云YDB-运行程序v1.0.2_运行程序17
2015-12-03
延云YDB安装与使用说明书v1.0.2_
2015-12-03
延云YDB安装与使用说明书v0.21.
2015-12-03
延云YDB-运行程序v1.0.1
2015-11-30
延云YDB安装与使用说明书
2015-11-29
延云大数据PPD
2015-11-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人