
数据
数据库
eric1984
喜欢技术的架构师
展开
-
关于数据湖 数据仓库和湖仓一体
1、数据仓库:传统的数仓ETL建模和分析处理2、数据湖:基于原始的半结构化、非结构化数据,使用分布式的计算任务进行分析和处理,不是基于良好建模的数仓,强调数据的动态模型、原始的数据3、湖仓一体:数据就是一份,底层是企业的全部数据,包括结构化、半结构化、非结构化,中间通过统一的加工处理直接支撑上层所有仓的应用(BI、报表以及湖的应用),不再需要ETL连通(原来是存储2份数据,1份是原始的,1份是ETL之后的),数据能够直接用来进行分析。4、胡仓一体技术实现方案:1》Snowflake(分布式并行计算原创 2022-02-10 18:14:47 · 1729 阅读 · 0 评论 -
hadoop spark hive storm的发展过程
计算框架 spark sparksql5、简化map reduce的开发, hive(使用sql的数据仓库)6、机器学习 Mahout7、实时处理 storm(缺点是只能处理事先定好的数据和逻辑) 基本架构:hdfs+yarn spark hive mahout原创 2017-07-25 17:21:42 · 92 阅读 · 0 评论 -
hadoop 安装和运维
sourceManager:总入口和总调度(针对一个app)ApplicationMaster:具体的作业调度(支持非map reduce)NodeManager:一个节点的管理daemoncontainer:节点内执行的环境(资源)Job History Server(api +RPC):收集和展现log信息WebAppProxy:内部与外部访问间的一个中转yarn.nodemanager.health-checker.script.path:监控nodeRack Awaren原创 2017-07-25 16:51:42 · 81 阅读 · 0 评论 -
yarn 概述
Manager nm;具体节点ApplicationMaster am; 应用Container是一个动态资源分配单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。 二、yarn job的调度过程1、提交,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Conta原创 2017-01-16 16:36:48 · 106 阅读 · 0 评论 -
hdfs 概述
;管理HDFS的名称空间;SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。DataNode:Slave节点,干活的。负责存储client发来的数据块block;执行数据块的读写操作。fsimage:元数据镜像文件(文件系统的目录树。)edits:元数据的操作日志(针对文件系统做的修改操作记录)fsimage+edits 类比数据库中的数据表和日志表namenod原创 2017-01-16 16:24:10 · 65 阅读 · 0 评论 -
大数据、数据仓库和ETL
况进行分析。比如,本周与上周相比销量增加还是减少了?原因是什么? 产品的库存周期长了还是短了?哪些产品需要及时补充库存?哪些供应商提供的商品,成本低、质量好、及时供货、客户比较喜欢?哪些地方的支出变多了?用户对我的产品满意吗?客户发生了哪些变化?需要招人吗?招什么样的人? 上面这些问题分别涉及 销售、库存、采购、会计、客户、HR等各个层面。 二、业务型系统与分析型系统的区别 OLTP VS OLAP OLTP:代表具体的操作,是对原来线下操作的模拟。 OLAP:关注整体的分析原创 2018-07-27 20:50:52 · 122 阅读 · 0 评论 -
Webmagic 内部实现
产出page(封装下载的内容和http 状态码)4、PageProcessor 对下载的内容做处理pipeline:对processor处理的结果进行计算、持久化等处理5、spider 组织所有的流程和模块。核心逻辑 run:1》创建线程池,2》从scheduler获取URL 3》 调用downloader下载 4》 回调PageProcessor 4》 提取新的url和request 5》 回调pipeline 6》回调 SpiderListener 模型的顺序:Request-&am原创 2018-07-23 11:51:01 · 74 阅读 · 0 评论 -
大数据数据仓库 《大数据之路:阿里巴巴大数据实践》 读书笔记
据集合,用于支持管理决策(Decision Making Support)。 其中最核心的是集成。 2、ETL:抽取 转换 加载 把数据从不同的oltp系统中集成到数据仓库中的过程 3、数据模型:仓库里的数据怎么组织?(数据结构)目前业界的事实标准是 维度模型 4、大数据:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度原创 2018-07-17 18:11:44 · 113 阅读 · 0 评论 -
ElasticSearch 三 建立索引快的原因
、es的改进 1、新的segment不是fsync到磁盘,而是同步到内核文件缓存(默认1s),内核文件缓存再在合适的时间真正刷磁盘 2、fsync之前怎么保证可靠?使用translog记录这段时间的操作,translog本身每5秒刷一次磁盘 3、合并小的旧的segment 代码: Settings settings = ImmutableSettings.settingsBuilder() .put("clien原创 2018-07-09 18:02:12 · 85 阅读 · 0 评论 -
ElasticSearch 二 查询快的原因
个term对应原来的一个field),并且term本身进行索引(trie 树)3、数据进行压缩4、组合查询时的优化注意点:ID尽量有规律、去掉不必要的索引、去掉不必要的analyzed原创 2018-07-09 17:25:25 · 120 阅读 · 0 评论 -
ElasticSearch 一 基本概念
:所有文档写进索引之前都会先进行分析,如何将输入的文本分割为词条、哪些词条又会被过滤,这种行为叫做映射(mapping)。一般由用户自己定义规则。定义后续数据如何建立索引,会定义数据的类型、是否索引、是否存储等,已有数据要改变映射关系需要reindex,mapping在整个index内有效(type不能作为作用域)。索引类型:analyzed 全文检索,not_analyzed:精确字符串匹配 6、shard:index的子部分,内部对应一个lucene,不同shard分布式存储,index的切分与合并原创 2018-07-09 17:22:47 · 74 阅读 · 0 评论 -
数据开发 数据服务 数据中台
据服务:根据配置,自动的生成对应的通用查询接口,并发布到api网关,解决的是怎么把表映射成接口的问题 数据中台:基于同一的平台,开发了众多的数据服务,当有新的需求时,可以直接组合使用已有的实现。比如,组合使用 查询天气、物流单号、发货单等,实现对收货人的提醒。原创 2020-09-21 17:51:05 · 411 阅读 · 0 评论 -
MongoDB动态代理
mpleMongoRepository对于findByXXX的解析在org.springframework.data.repository.core.support.RepositoryFactorySupport.QueryExecutorMethodInterceptor原创 2020-05-15 09:42:35 · 236 阅读 · 0 评论 -
MongoDB 数据建模
m:n 使用reference ,关联表, 更新等要保证事务性 二、模型例子1、电商建模: https://blog.youkuaiyun.com/wanght89/article/details/77197400product和分类{ slug:"wheel-barrow-9092", sku:"9092", name:"Extra Large Wheel Barrow", description:&q原创 2020-05-13 15:21:09 · 461 阅读 · 0 评论 -
h2 sql 数据库相关
进url,可以支持不敏感5、默认事物隔离级别是读已提交, jdbc:h2:~/test;LOCK_MODE=3串行的并发级别 jdbc:h2:~/test;LOCK_MODE=1(在内存中可以考虑用这个)6、默认编码是utf-8的 https://www.jianshu.com/p/4a613dcf182c二、运行模式:1、内存模式jdbc:h2:mem:DBName;DB_CLOSE_DELAY=-1如果不指定DBName,则以私有方式启动,只允许一个连接 2、原创 2019-09-27 14:52:04 · 688 阅读 · 0 评论 -
常用大数据组件
原创 2018-09-08 22:09:34 · 114 阅读 · 0 评论