
基础架构
文章平均质量分 66
gao8658
这个作者很懒,什么都没留下…
展开
-
大数据系统-SQL on Hadoop构建OLAP的基石
SQL on Hadoop是泛指大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库或数据仓库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。 系统设计者和用户比较关注其中一些技术点:接口层:是否兼容以往SQL标准,迁移以往工作负载以及平滑过渡甲方历史遗留作业。查询优化器层:能否将SQL转换为优化的分布式执行作业,深挖分布...原创 2014-06-21 23:53:07 · 1185 阅读 · 0 评论 -
机器学习-Spark MLlib
MLlib是一些常用的机器学习算法和库在Spark平台上的实现。MLlib是AMPLab的在研机器学习项目MLBase的底层组件。MLBase是一个机器学习平台,MLI是一个接口层,提供很多结构,MLlib是底层算法实现层。 MLlib中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的优化库。MLlib组件图通过这幅图读者可以对MLlib的整体组件和依赖库有一个宏观的把握。下面...原创 2013-11-17 12:18:32 · 1415 阅读 · 0 评论 -
大数据系统-流计算Spark Streaming
Spark Streaming是构建在Spark上的实时计算框架,扩展了Spark流式大数据处理能力。Spark Streaming将数据流以时间片为单位进行分割形成RDD,使用RDD操作处理每一块数据,每块数据(也就是RDD)都会生成一个Spark Job进行处理,最终以批处理的方式处理每个时间片的数据。Spark Streaming架构通过图3-11,读者可以对Spark Stream...原创 2013-11-17 15:10:57 · 1811 阅读 · 0 评论 -
大数据系统-Spark生态系统
目前,Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈(BDAS)。其核心框架是Spark,同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL,提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib,并行图计算框架GraphX,流计算框架SparkStreaming,近似查询引擎BlinkDB,内存分布式文件系...原创 2013-11-17 16:03:11 · 1778 阅读 · 0 评论 -
深度学习-玩转GPU
随着深度学习不断渗透到各个AI应用场景,越来越多的研发人员开始依赖GPU算力加速深度学习模型的训练。也有人戏称GPU为深度学习领域的核武器,虽然很多芯片公司都提供了相应的芯片解决方案,但是较为主流的方式还是选用英伟达的GPU并使用上层的CUDA和cuDNN驱动生态进行深度学习应用的开发。由于英伟达新品不断推出,我们列举特定型号的GPU没有太大意义,所以结合选型的不同场景和需求,根据场景进而...原创 2018-03-28 18:37:41 · 4099 阅读 · 0 评论 -
深度学习-在线推断(Inference)技术
深度学习一般分为训练和在线推断两个部分,大家平时经常关注的多为训练阶段,也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来,如何使用模型,以及在在线环境中部署模型,也是非常重要的。 一般会比较关注其中的一些技术点: 访问延迟 吞吐量 模型版本管理 DevOps 大公司较为倾向自己造轮子,而小公司更倾向于用开源方案。 1 软件层: 1....原创 2018-03-28 18:15:04 · 26302 阅读 · 0 评论 -
SQL优化34条
我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习、摘录、并汇总部分资料与大家分享!(1) 选择最有效率的表名顺序(只在基于规则的优化器中有效):ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的...转载 2011-09-12 17:02:05 · 526 阅读 · 0 评论 -
数据库
总结1 数据(范式),索引,元数据(词典)2完整性约束(一致性问题,有冗余数据引起)3查询(优化),增删改4 性能(并行,分布,流水--引起同步和互斥问题),安全性(又有意或无意的异常操作引起),可靠性(故障引起,恢复处理)...原创 2013-03-16 10:02:36 · 818 阅读 · 0 评论 -
Nosql与Sql矛盾的两个方向
1nosql以牺牲完整性约束来换取高可扩展性。2nosql本质为将sql中所有的表连接成一个表,这样产生了大量的null值小格,然后将所有相同类型的列合并成列族,然后将每个列族拆分成一个表,这样进而消除了null值小格3本质两个是一个不同的方向以牺牲一个获取另一个极端,所以每种技术都不会被取代,只是为了适用的情况不同。4nosql是灵活的极端,sql是完整性约束的极端,灵活与约束是一对矛盾,以后应...原创 2013-05-28 14:23:30 · 793 阅读 · 0 评论 -
大数据系统-图数据查询与存储
图数据管理即需要上层查询API的支持,也需要底层数据存储的支撑。图数据库查询语言Gremlin (Thinker pop, Titan)Cypher (Neo4j)SQL … 图查询Gremlin实例:图数据存储在处理图数据时,其内部存储结构往往采用邻接矩阵或邻接表的方式图分布式存储图数据分布式存储有两种分区形式,按vertex进行划分或者按edge进行划分。 ...原创 2013-07-07 10:16:47 · 2210 阅读 · 0 评论 -
大数据系统-图数据分析
图数据分析技术流派:用于联机事务图的持久化技术(通常直接实时地从应用程序中访问)。这类技术被称为图数据库,它们和“通常的”关系型数据库世界中的联机事务处理(Online Transactional Processing,OLTP)数据库是一样的。(Traversal Based Online Queries)用于离线图分析的技术(通常都是按照一系列步骤执行)。也就是常见的图机器学习技术。...原创 2013-11-17 15:23:16 · 2397 阅读 · 0 评论 -
大数据系统-Hive的3种数据存储格式
关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:基本数据类型...转载 2013-11-21 20:02:24 · 14049 阅读 · 0 评论 -
大数据系统-SparkSQL基于内存的大数据分析引擎
[1]参考文章:高彦杰,陈冠诚 Spark SQL : 基于内存的大数据分析引擎《程序员》2014 . 8AMPLab将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求,也需要提供SQL接口来兼容原有数据库用户的使用习惯,同时也需要SQL能够进行关系模式...原创 2013-11-30 22:55:47 · 2680 阅读 · 0 评论 -
大数据系统-系统优化与算法优化方向
大数据系统面临的问题一般是有以下几个问题造成的: 数据分布变化产生新的挑战。 计算环境为分布式集群。 针对系统执行过程中的作业,参考开源系统与研究论文可以看到大家比较关注的一些优化方向:1. 存储层:列存储和文件排布:Major Technical Advancements in Apache Hive压缩:Choosing a Data Compression Form...原创 2014-02-22 22:50:52 · 2796 阅读 · 1 评论 -
深度学习-深度学习集群管理方案
相比之前如火如荼的大数据作业和负载以及集群硬件情况。深度学习平台的作业和硬件环境有了一些新的不同和趋势: 作业:相比大数据作业,工作流workflow相比之前的大数据workflow来看相对简化,而将复杂DAG计算图推到了单独的深度模型中。 Training 和 Serving的需求逐步分离。训练过程类似之前大数据批处理作业。深度学习集群更多的解决训练问题。serving相比Tr...原创 2018-07-17 16:46:28 · 8209 阅读 · 0 评论