qq_33160722-优快云博客

原创延云行业搜索数据库在大数据生态中位置和重要性

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战随着大数据在各行业的应用，互联网及物联网技术的迅猛发展，数据正在大量产生、被存储并被快速的利用，很多行业的每天的数据增量就达到了千亿级，总量则超过了数万亿。比如，在公共安全行业，海量的上网行为被记录，电子围栏系统时刻采集海量移动设备信息；在交通行业，一个中等城市的卡口系统，每天采集的过车记录到达数百万条到千万条不等；在电信行业，每

2017-08-14 15:06:17 857 1

原创关于Solr/ES，我们不得不知道的十件事

这里谈一下笔者多年使用Solr/ES的所总结出的Solr/ES十点不足：1、Solr/ES分词的不足之处对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整，导致数据查不全，因分词导致漏查以及缺失数据，对于模糊检索有精确匹配要求的场景下，业务存在较大的风险。如何玩转Solr/ES，能够自定义拓展任意的分词类型，如词库分词，语义分词，拼音分词等

2017-07-05 18:46:00 1769

原创生产环境上的HADOOP安装部署注意事项(HDP版)

正式部署前请详细阅读基础环境这三篇，非常重要！！！YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解一、安装前的准备请参考第三章的基本环境注意事项，准备基础环境，这个很重要二、软件下载1.请从HDP官方下载 HDP与HDP-UTILShttp://public-repo-1.hortonworks.com/HDP/centos6/2.x

2017-05-14 15:51:15 1867

原创 20170405YDB资源汇总

YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试在Spark中通过YDB实现比原生Spark性能高100倍的多表关联大索引技术大数据的未来YDB的历史2017chinahadoop-千亿大数据即席踪迹分析2016chinahadoop-基于Spark如何实现千亿大数据即席多维分析2015腾讯Hermes-大数据利器中的

2017-04-05 12:11:46 803

原创 Spark性能优化之通过YDB实现比原生Spark性能高100倍的多表关联

多表关联Join在Spark数据分析中是一个不可或缺的一部，我们以商品交易记录表（trade表）与用户信息表为例（user表）来阐述下如何实现高性能的多表关联分析。经常会遇到这种情形，我们需要先找出【某一个省份】【工商银行】【交易金额在150~160元】的所有用户，并通过与用户信息表进行关联得到该用户的手机号，性别，年龄，职业等信息。Spark的传统做法是对双表都进行暴力扫描，需要对tra

2017-04-03 14:07:51 1099

原创延云YDB基于spark进行数据分析的一种新方式

YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark对YDB检索结果集直接分析计算，同样场景让Spark性能加快百倍。YDB的主要

2017-03-12 14:40:14 830

原创基于spark的车辆分析

延云YDB车辆分析自2012年以来，公安部交通管理局在全国范围内推广了机动车缉查布控系统（简称卡口系统），通过整合共享各地车辆智能监测记录等信息资源，建立了横向联网、纵向贯通的全国机动车缉查布控系统，实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重

2017-03-12 13:58:43 7947 1

原创超越spark性能300倍的性能测试

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序上进行巨大的投入，

2017-03-12 13:55:01 552

原创基于spark排序的一种更廉价的实现方案-附基于spark的性能测试

2017-03-07 22:44:58 407

原创生产系统搭建spark，基础环境注意事项

YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密集型的业务，但是如果是I

2017-03-06 17:17:29 1466

原创 spark性能调优与BUG修正

做了一年延云YDB的开发，这一年在使用spark上真心踩了不少坑，总结一下，希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spar

2017-03-06 17:14:02 1862

原创基于spark SQL之上的检索与排序对比性能测试

关于spark的性能，基于YDB的对比，做了一个测试，保留备用。一、YDB与spark sql在排序上的性能对比测试在排序上，YDB具有绝对优势，无论是全表，还是基于任意条件组合过滤，基本秒杀spark默认的格式。

2017-03-06 16:33:19 2088

原创 YDB跟Solr Cloud、ElasticSearch区别

一、跟Solr Cloud、ElasticSearch区别谈到YDB的索引技术，相信很多同学都会想到Solr、ElasticSearch。他们俩真可谓是大名鼎鼎，是两个顶级项目，最近有些同学经常问我，“开源世界有Solr、ElasticSearch为什么还要使用YDB?” 在回答这个问题之前，大家可以思考一个问题，既然已经有了Oracle、Mysql等数

2017-02-19 14:41:23 892

原创 YDB技术原理

第十二章YDB技术原理一、铺一条让Spark跑的更快的路二、YDB的本质在Spark之上基于搜索引擎技术，实现索引和搜索功能。既有搜索引擎的查询速度，又有Spark强大的分析计算能力。可对多个字段进行关键字全匹配或模糊匹配检索，并可对检索结果集进行分组、排序、计算等统计分析操作。三、多种技术组合-万亿数据秒级查

2017-02-19 14:38:03 932

原创 YDB场景精选

第十一章YDB场景精选一、多维检索与探索性分析1.IT运维日志、业务日志、交易流水日志的搜索与分析通过方便灵活的日志搜索分析，帮助用户及时发现问题l统一日志查询平台，程序故障定位平台开发与运维人员经常需要登录线上生产系统，通过grep、tail、more、cat等命令去生产系统里查找故障原因，排查效率很慢。且在生产系统运维人员因错误的使用调试命令导致

2017-02-19 13:53:23 932

原创 YDB进阶使用详解

第十章YDB进阶使用详解一、Lucene原生查询语法的使用 YDB的索引本质上是Lucene索引，如果之前有使用Solr Cloud、ElasticSearch的朋友肯定对Lucene不陌生，对于Lucene有自己的强大的过滤筛选方式，YDB里面依然兼容这种语法方式。1.使用ydb_raw_query_s like 进行Lucene语法匹配示例：ydb

2017-02-19 13:29:52 3746

原创 YDB运维必读

一、YDB升级步骤1.停止YDB服务通过./stop-all.sh来停止服务（注：HDP版本需要在管理页面上停止服务）2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份HIVE本地元数据库本地元数据库是指Hive元数据库d

2017-02-19 12:51:48 2041

原创 YDB函数

第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层对于YDB系统来说，我们将索引与SPARK集成在了一起，但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理，大家可以注意下架构图里面的那两个箭头，注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看二、YDB的S

2017-02-19 12:12:07 1348

原创 YDB基本使用详解

第七章YDB基本使用详解一、如何与YDB对接（交互）目前延云YDB提供如下几种方式l命令行的方式lWeb http接口的方式lJDBC接口的方式通过JAVA编程接入通过可视化SQL分析统计接入通过报表分析工具接入二、命令行接入进入ya100的安装目录的bin目录1.直接执行 ./conn.sh 即可。2

2017-02-19 12:07:25 4719

原创基于HDP版本的YDB安装部署

第三章 YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密集型的业

2017-02-19 11:43:48 979

原创大索引技术大数据的未来

一、大索引技术，大数据的未来 YDB并没有采用堆积机器，靠大内存和SSD硬盘的方式来提升计算速度。YDB采用索引技术, 在RDBMS中索引的概念大家一点都不陌生，但是在大数据里大家似乎没有听过，YDB将索引创建在HDFS中，通过索引技术，将大数据分门别类整理好，就像是一个新华字典的目录，通过目录可以快速到相关数据，避免了暴力的扫描，从而提升查询速度。1.当大数据使用上大

2017-02-19 11:19:10 803

原创 YDB基础

第二章 YDB基础一、YDB是什么？ YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark对YDB检索结

2017-02-19 11:16:39 4298

原创大数据分析与处理

一、大数据分析与处理1.文件批处理以MapReduce、Hive为典型代表，批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎，使得海量数据分析成为可能。没有批处理引擎的诞生，也就没有今天风风火火的大数据。数据通常积累达到一个周期后定期运行，也就是所谓的T+1数据，即典型的T为一天，即数据延迟一天。批处理的业务通常一

2017-02-19 11:08:23 1277

原创大数据技术

一、大数据技术的发展的三个阶段1.存起来-等待机遇 2009年开始BAT大力发展Hadoop技术，这个期间主要解决海量数据的存储与简单分析问题。既然大数据有价值，那么就先将数据存起来。要发挥数据的价值，我们先要有数据。n网站浏览点击行为日志存储n简单的PV与UV统计，满足基本需求n更注重存储能力、集群规模、扩展能力2.用

2017-02-19 11:05:31 616

原创世界因大数据而改变

不管你信也好，不信也好，大数据时代真的来临了。随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、HBase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间，攻陷了全部的大数据阵地。一、世界因大数据而改变1.有哪些我们所熟知的大数据？ l物联网(IOT)

2017-02-19 11:02:09 564

原创延云YDB对spark广播数据broadcast的Cleaner改进

由于SPARK-3015 的BUG，spark的cleaner 目前为单线程回收模式。大家留意spark源码注释其中的单线程瓶颈点在于广播数据的cleaner，由于要跨越很多太机器，需要通过akka进行网络交互。如果回收并发特别大，SPARK-3015 的bug报告会出现网络拥堵，导致大量的 timeout出现。但是单线程回收意味着回收速度一定，如果查询并发

2017-02-06 16:03:43 790

原创历时三个月的反反复复测试，延云YDB版本v1.1.6正式发布

历时三个月的反反复复测试，延云YDB版本v1.1.6正式发布一、1000多项数据比对用例，近千种SQL。二、包括业界基准测试tpc-h,tpc-ds以及近一年积累的全部的案例SQL。三、循环生产数据，连续20天，100并发，1000万次数据比对。本版本release内容如下：一、修正大量spark内存泄露的BUG，从而提升YDB的稳定性修正的内容如下

2017-02-04 13:52:24 2020

原创【视频】如何只用4台虚拟机搞定500G共300亿条数据的秒级排序

有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，2016年的计算冠军为腾讯(原文地址为 http://www.youkuaiyun.com/article/a/2016-11-10/15841969),通过该文，我们可知这次排序比赛的硬件采用了512台IBM的OpenPOWER服务器和迈络思公司的100Gb互联技术，排序时间为98.8秒。每年巨头都会在排序上进行巨大的投入，可见排序性能对一个系统有多么重要！排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据

2017-02-02 15:18:15 1239

原创 YDB针对范围查找所做的性能小改进（skiplist IO 分析）

范围查找，尤其是时间范围的查找，在日常检索中会被经常使用，在范围查找中跳跃表的利用与否对性能影响非常大。我们对lucene的默认范围查找做了一个小实验，截获了每种SQL的IO读取明细，对IO情况做了测试与分析。测试结果如下普通的等值SQL分析-占用IO较小筛选条件为：phonenum='13470881895' and amtdouble=50使用小范围

2017-01-30 14:57:20 825

原创延云Ydb与 Solr/ES 的十点对比

一、分词solr/ES：对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整，导致数据查不全，因分词导致漏查以及缺失数据，对于模糊检索有精确匹配要求的场景下，业务存在较大的风险。YDB：内置的分词类型会确保查询准确度，不会出现漏查，内置的分词类型，很好的解决了lucene默认分词导致的查询数据缺失的问题。另外YDB可以自定义拓展任

2017-01-24 14:59:01 1701

原创小改Spark sql，提升spark响应时间

测试发现，即使只有1条记录，使用 spark进行一次SQL查询也会耗时1秒，对很多即席查询来说1秒的等待，对用户体验非常不友好，特别是延云YDB，用户对响应时间要求比较苛刻，1秒与毫秒有本质的区别，有些用户这种差异感觉根本不可接受。针对这个问题，我们在spark与hive的细节代码上进行了局部调优，调优后，响应时间由原先的1秒缩减到现在的200~300毫秒。以下是我们

2017-01-23 13:54:04 1312

原创 YDB与spark SQL在百亿级数据上的性能对比测试

按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中，我们改变了传统的暴力排序方式，通过索引技术，可以超快对数据进行单列排序，不需要全表暴力扫描，这个技术我们称之为blockSort，目前支持tlong,tdouble,tint,tfloat四种数据类型。由于blockSort是借助搜索的索引来实现的，所以,采用blockSort的排序，不需要暴力扫描，性能有大幅度为此，我们针对spark sql与YDB在排序性能上做了一个比较性的测试

2017-01-15 19:39:07 4026 2

原创最近在SPARK上定位的几个内存泄露问题总结

最近为了测试延云YDB在高并发请求和持续性请求情况下的表现，发现了spark的不少关于内存泄露的问题，这些问题均在延云YDB提供的SPARK版本中得以修正，现将问题总结如下。1. 高并发情况下的内存泄露很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a) 在进行大量小SQL的压测过程

2017-01-05 14:26:58 7565

原创大数据系统-在硬盘上需要注意的事情

逻辑卷的问题一般很多linux的默认安装，会将磁盘直接以逻辑卷的方式挂载，逻辑卷的优点是后期的扩容以及调整磁盘非常的方便，看着比raid好用多了，但是默认的逻辑卷配置方式是只有一块盘在工作，其他几块盘都闲着，发挥不出来多块盘的性能，也就是说如果在逻辑卷里面挂了10块盘，那么默认的逻辑卷的配置，只能发挥出一块盘的性能。所以对于YDB系统来说，大家不要使用逻辑卷。

2016-12-30 17:28:54 2673

原创 YDB与Hive SQL在写法上的对比

目录普通查询SQL写法对比...2复杂查询SQL写法对比...4 普通查询SQL写法对比对比点HIVEYDB统计计数select count(*) from ydb_example_shu where ydbpartion= '2015'/*ydb.pushdown('-

2016-12-28 20:18:29 597

原创记一次kafka数据丢失问题的排查

数据丢失为大事，针对数据丢失的问题我们排查结果如下。第一：是否存在数据丢失的问题？存在，且已重现。第二：是在什么地方丢失的数据，是否是YDB的问题？数据丢失是在导入阶段，数据并没有写入到Kafka里面，所以YDB也就不会从Kafka里面消费到缺失的数据，数据丢失与延云YDB无关。第三：是如何发现有数据丢失？ 1.测试数据会一共创建365个分区，

2016-10-23 17:55:34 14176

YDB编程指南-赚点小分

YDB编程指南

2017-01-03

YDB编程指南-预览版

YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark直接对YDB检索结果集分析计算，同样场景让Spark性能加快百倍。

2017-01-03

Spark性能测试报告-Spark SQL在不同存储格式下的性能对比

Spark SQL在不同存储格式下的性能对比本文测试的目的是用来对比 Spark 三种存储格式txt、parquet、ya100的性能差异。因机器环境以及配置的不同，测试结果可能略有差异，该测试报告仅对笔者的软硬件环境负责。

2016-02-20

延云ydbOnSpark的性能测试报告

关于ydb on spark的介绍，请阅读该文：http://ycloud.net.cn/newsitem/277227270 本文测试的目的是用来比对使用原生Spark与 YDB on Spark上的性能差异。如果您感兴趣想要亲自测试，请访问http://ycloud.net.cn获取延云YDB，自行测试。

2016-01-01

延云YDB-运行程序v1.0.2_运行程序17

YDB是我们自主研发的一个大型分布式索引系统。旨在为数据总量为万亿级别、每天千亿级别数据增量的项目提供近似实时的数据导入，并提供近似实时响应的多维查询与统计服务。大索引技术为什么要使用大索引？使用后会有什么好处？ 1. 索引大幅度的加快数据的检索速度。 2. 索引可以显著减少查询中分组、统计和排序的时间。 3. 索引大幅度的提高系统的性能和响应时间，从而节约资源。正因为大索引技术可以显著的降低大数据的处理成本，显著提高大数据系统的执行效率，延云自主研发了自己的分布式大索引系统YDB。 YDB特性 1. 千亿规模：在真实业务环境上验证，每天可达千亿增量，总数据量可达几万亿。 2. 低延迟：数据从产生到能查询，根据配置的不同一般在十几秒到几分钟。 3. 查询快-高性能：常规查询毫秒级响应常规统计秒级响应。 4. 实时搜索：长文本字段可以根据关键词进行全文检索模糊匹配，并且有较高的性能。 5. 多维钻取：支持上万个维度，任意组合查询，任意维度组合过滤、分组，统计、排序。 6. 容灾可靠：索引存储在分布式文件系统中，不因硬件的损坏或异常宕机而丢失数据。 7. Sql Api：更易于上手与使用。

2015-12-03

延云YDB安装与使用说明书v1.0.2_

2015-12-03

延云YDB安装与使用说明书v0.21.

延云YDB安装与使用说明书超千亿规模的数据，数据库根本就运行不了，怎么办？数据从产生到能够查询，要延迟一天才能看到，如何能做到分钟级延迟？ 50台规模的hadoop集群，几亿条数据，一个MR任务要运行几小时，每天也就能进行几百次查询。如何能让任务的执行时间缩短到秒级响应，每天能执行千万次查询。 Hbase只接受KV形式的存储，数万个维度的大宽表，如何进行多维索引？ Storm流计算能预计算固定的维度、粒度，但业务千变万化，突发事件很多，如何对任意维度的组合进行筛选、钻取、统计？硬盘坏了，机器宕机，怎样做到数据可靠不丢失? 小型机太贵，我们买不起，怎么办？ YDB特性 1. 千亿规模在真实业务环境上验证，每天可达千亿增量，总数据量可达几万亿。 2. 低延迟数据从产生到能查询，根据配置的不同一般在十几秒到几分钟。 3. 查询快-高性能常规查询毫秒级响应常规统计秒级响应。 4. 实时搜索长文本字段可以根据关键词进行全文检索模糊匹配，并且有较高的性能。 5. 多维钻取支持上万个维度，任意组合查询，任意维度组合过滤、分组，统计、排序。 6. 容灾可靠索引存储在分布式文件系统中，不因硬件的损坏或异常宕机而丢失数据。 7. Sql Api：更易于上手与使用。

2015-12-03

延云YDB-运行程序v1.0.1

超千亿规模的数据，数据库根本就运行不了，怎么办？数据从产生到能够查询，要延迟一天才能看到，如何能做到分钟级延迟？ 50台规模的hadoop集群，几亿条数据，一个MR任务要运行几小时，每天也就能进行几百次查询。如何能让任务的执行时间缩短到秒级响应，每天能执行千万次查询。 Hbase只接受KV形式的存储，数万个维度的大宽表，如何进行多维索引？ Storm流计算能预计算固定的维度、粒度，但业务千变万化，突发事件很多，如何对任意维度的组合进行筛选、钻取、统计？硬盘坏了，机器宕机，怎样做到数据可靠不丢失? 小型机太贵，我们买不起，怎么办？ YDB特性 1. 千亿规模在真实业务环境上验证，每天可达千亿增量，总数据量可达几万亿。 2. 低延迟数据从产生到能查询，根据配置的不同一般在十几秒到几分钟。 3. 查询快-高性能常规查询毫秒级响应常规统计秒级响应。 4. 实时搜索长文本字段可以根据关键词进行全文检索模糊匹配，并且有较高的性能。 5. 多维钻取支持上万个维度，任意组合查询，任意维度组合过滤、分组，统计、排序。 6. 容灾可靠索引存储在分布式文件系统中，不因硬件的损坏或异常宕机而丢失数据。 7. Sql Api：更易于上手与使用。

2015-11-30

延云YDB安装与使用说明书

2015-11-29

延云大数据PPD

延云千亿大数据实时解决方案超千亿规模的数据，数据库根本就运行不了，怎么办？数据从产生到能够查询，要延迟一天才能看到，如何能做到分钟级延迟？ 50台规模的hadoop集群，几亿条数据，一个MR任务要运行几小时，每天也就能进行几百次查询。如何能让任务的执行时间缩短到秒级响应，每天能执行千万次查询。 Hbase只接受KV形式的存储，数万个维度的大宽表，如何进行多维索引？ Storm流计算能预计算固定的维度、粒度，但业务千变万化，突发事件很多，如何对任意维度的组合进行筛选、钻取、统计？硬盘坏了，机器宕机，怎样做到数据可靠不丢失? 小型机太贵，我们买不起，怎么办？

2015-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人