大数据
文章平均质量分 79
杜小瑞
冲冲冲!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《大数据之路》阅读笔记--数据同步
数据同步 同步方式主要分为三种:直连同步、数据文件同步和数据库日志解析同步。 直连同步 直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据,这种方式对源系统的性能影响较大,不适合大数据量的情况。 数据文件同步 数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如FTP服务器传输到目标系统后,加载到目标数据库系统中。当源数据来自多个不同的数据库系统时这种方式比较好。 在使用数据文件同步时,同时还会同步一个校验文件,保证文件的完整性。另外原创 2022-04-19 20:07:22 · 1539 阅读 · 0 评论 -
《大数据之路》阅读笔记--数据采集
数据采集 浏览器页面日志采集 浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括:页面浏览量( Page View, PV )和访客数( Unique Visitors, UV )。 页面浏览日志采集流程 基本思路是在html文档内适当位置增加一个日志采集节点,当浏览器解析到这个节点时,将自动触发一个特定的http请求到日志采集服务器。 页面交互日志采集 主要流程如下: 1、业务方在元数据管理页面依次注册需要采集交互日志的业务、场景以及采集点的位置,系统会生成代码模板。原创 2022-04-11 16:04:55 · 2367 阅读 · 0 评论 -
分布式系统简介与分布式一致性算法
分布式架构 集中式的特点 集中式是指一台或多台计算机组成中心节点,数据集中存储于这个中心节点中。集中式系统的最大特点是部署结构简单,不需要考虑多个节点之间的分布式协作问题。 分布式特点 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。 分布式系统有以下几个特征: 分布性。多台机器随意分布 对等性。分布式系统中的计算机没有主从之分。分布式系统会对数据和服务提供一种冗余方式,也就是副本的概念。 并发性。如何准确高效的协调分布式并发操作是分布式系统架构与设计原创 2021-11-22 15:09:37 · 1859 阅读 · 0 评论 -
HiveQL调优
使用EXPLAIN 使用EXPLAIN可以打印出查询语句的抽象语法树,比如下面的: EXPLAIN SELECT SUM(number) FROM onecol; 还可以使用EXPLAIN EXTENDED产生更多的输出信息。可以通过分析语句的语法树来查找问题所在。 join优化 hive做联结操作时,会先对前面的表缓存,然后扫描最后一张表。所以,联结的时候最好保证联结查询中的表的大小从左往右是依次增加的 如果表中有一张是小表,可以在最大的表通过mapper的时候将小表完全放到内存中。Hive可以在m原创 2021-11-03 21:13:50 · 1004 阅读 · 0 评论 -
hive基础操作
hive数据类型 基本数据类型: 数据类型 长度 例子 TINYINT 1byte有符号整数 20 SMALLINT 2byte有符号整数 20 INT 4byte有符号整数 20 BIGINT 8byte有符号整数 20 BOOLEAN 布尔类型 TRUE FLOAT 单精度浮点数 3.1419 DOUBLE 双精度浮点数 3.14159 STRING 字符序列。可以指定字符集。可以使用单引号或者双引号 TIMESTAMP 整数,浮点数或者字符串 (JDB原创 2021-11-02 15:19:41 · 951 阅读 · 0 评论
分享