- 博客(243)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 Docker镜像添加Linux普通用户
2) useradd normalUserName //新增普通用户名,比如新增tom: useradd tom;1) docker run -it --name X1 ;1)基于客户端打客户端镜像包client.tar.gz。3)id -u tom //查看用户tom的UID。4)docker commit X1 镜像B。2) 构建镜像C build-imageC.sh。(3)构建带有普通用户名UID的镜像C。1) 创建DockerFile。
2024-08-22 10:19:44
390
1
原创 Doris-计算特性
如下查询可以进行透明改写,查询和物化使用聚合的维度不一致,物化视图使用的维度包含查询的维度。查询可以使用维度中的字段对结果进行过滤,查询会尝试使用物化视图 SELECT 后的函数进行上卷,如物化视图的。
2024-07-30 09:01:48
926
原创 Doris-存储能力
在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。一张表包括行(Row)和列(Column)。Row 即用户的一行数据,Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。Doris 的 Key 列是建表语句中指定的列,建表语句中的关键字unique key或或后面的列就是 Key 列,除了 Key 列剩下的就是 Value 列。
2024-07-30 08:51:23
198
原创 Doris-接入能力
该功能可以将用户指定的表或分区的数据,以指定的文件格式,通过 Broker 进程或 S3 协议/HDFS 协议 导出到远端存储上,如 对象存储 / HDFS 等。当前,EXPORT 支持导出 Doris 本地表 / View 视图 / 外表,支持导出到 parquet / orc / csv / csv_with_names / csv_with_names_and_types 文件格式。部分列更新:主键模型更新值字段速度高效, 聚合模型写入时不做处理,查询时进行聚合,查询时性能下降。
2024-07-29 17:47:05
238
原创 Spark调优-解决job任务运行超时或者慢的问题
(3)如果 spark.shuffle.io.connectionTimeout 导致的连接失败,并且重试次数(spark.rpc.numRetries)也耗尽了,那么 spark.network.timeout 将决定在放弃任务之前等待多长时间。在任务运行过程中,发现有些task执行速度较慢,耗时数分钟级别,根据执行结果分析,发现是数据倾斜了,倾斜的原因可能是网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看该节点的性能监控来分析原因。(默认值是120s)(默认值是120s)
2024-04-25 19:26:35
548
原创 解决:Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题
【代码】解决:Spark以overwrite的方式写ES会造成该索引有一段时间的空窗期问题。
2024-01-17 21:34:37
430
原创 Pom.xml详解
POM全程,又称项目对象模型。他是Maven工程的基本工作单元,是一个XML(可扩展标记语言)文件,包含了项目的基本信息,用于描述项目如何构建,声明项目依赖等等。执行任务或目标时,Maven会在当前目录中查找 POM并读取从而获取所需的配置信息执行目标,属于项目级别的配置文件。
2023-02-15 16:44:56
14377
6
转载 K8S 学习笔记总结(2022版)
Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单高效,Kubernetes提供了应用部署、规划、更新、维护的一种机制。在Kubenetes中,所有的容器均在Pod中运行,一个Pod可以承载一个或者多个相关的容器。同一个Pod中的容器会部署在同一个物理机器上并且能够共享资源。一个Pod也可以包含0个或者多个磁盘卷组(volumes),这些卷组将会以目录的形式提供给一个容器,或者被所有Pod中的容器共享。主要介绍一些什么知识。
2022-12-23 09:58:12
1012
原创 ES的两种认证登录方式: JAVA REST Client/HTTP Client
ES的两种认证登录方式: JAVA REST Client/HTTP Client。
2022-12-14 11:06:09
2933
转载 Springboot+Spark(http请求调用spark api,并以集群模式运行)
Springboot+Spark(http请求调用spark api,并以集群模式运行)
2022-11-08 14:37:34
819
转载 springboot基于spark-launcher构建rest api远程提交spark任务
springboot基于spark-launcher构建rest api远程提交spark任务
2022-11-08 14:35:57
222
转载 The Full Stack
Web Performance Calendar » The Full StackDec 2010by Carlos BuenoOne of my most vivid memories from school was the day our chemistry teacher let us in on the Big Secret: every chemical reaction is a joining or separating of links between atoms. Which links
2022-11-03 09:33:51
317
转载 NFS搭建与自动挂载
默认就有sync,wdelay,hide 等等,no_root_squash 是让root保持权限,root_squash 是把root映射成nobody,no_all_squash 不让所有用户保持在挂载目录中的权限。NFS是network file sytem的缩写,他最大的特点就是可以通过网络,让不同的机器,不同的系统实现文件共享。• no_all_squash:与all_squash取反(默认设置),保留访问用户的身份uid以及gid,一般只能查看,不能修改,权限问题,但是可以强制保存。
2022-10-28 11:18:05
7654
转载 国产数据库梳理
网上对这些数据库介绍有些误导,流传各种说法,比如:流传OB基于MySQL、GaussDB 200/300 和openGauss有啥区别,没办法谁让当前国产数据库太多…TidbPolarDBTDSQLGaussDBOceanBase公司PingCap阿里云腾讯华为阿里历史基于Google Spnner论文实现的原生分布式数据库。
2022-09-28 10:12:46
7028
转载 TiDB、OceanBase、PolarDB-X、CockroachDB二级索引写入性能测评
二级索引是关系型数据库相较于NoSQL数据库的一个关键差异。二级索引必须是强一致的,因此索引的写入需要与主键的写入放在一个事务当中,事务的性能是二级索引性能的基础。本次测试将重点关注不同分布式数据库的索引性能,特别关注业内全局索引的性能与MySQL索引的性能差异。
2022-09-08 14:03:09
587
转载 大数据融合初理解
在大数据时代下,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。该数据的融合产生的是物理反应,数据属性本质没有改变。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。在大数据时代下,数据融合显得非常重要,数据融和是有效整合数据资源、分析挖掘数据价值最直接有效的方式,因此在进行数据融和时也应规避和解决其他问题和不安全因素。数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合等三个层次,由低到高,逐步实现数据之间的深度交互。
2022-09-06 09:17:16
2306
原创 VMware16安装苹果OS及如何unlock(亲测有效)
vm16的下载下面这个版本即可: https://github.com/DrDonk/unlocker/releases。如果vm已经打开,建议重启电脑。重启之后进入任务管理器,如果进程还有VM的进程要全部杀掉。可以看到已经可以安装苹果系统。等待执行结束退出即可。...
2022-08-08 10:43:13
4862
1
转载 SparkMl之pipeline
一个Pipeline的stages被定义为一个顺序数组。目前这里给出的都是线性的Pipelines,即Pipeline每个stage使用前一stage产生的数据。Pipeline只要数据流图形成有向无环图(DAG),就可以创建非线性的Pipelines。该图目前是基于每个stage的输入和输出列名(通常指定为参数)隐含指定的。如果Pipeline形成为DAG,那么stage必须按拓扑顺序指定。...
2022-07-29 13:56:55
910
原创 Spark on yarn使vcores可以使用多个生效(已解决)
yarn 默认情况下,只根据内存调度资源,所以 spark on yarn 运行的时候,即使通过–executor-cores 指定 core 个数为 N,但是在 yarn 的资源管理页面上看到使用的 vcore 个数还是 1
2022-07-08 14:25:17
865
原创 spark性能调优:执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)
执行器内存(executor_memory)、执行器个数(num_executor)、执行器核数(executor_cores)
2022-07-07 16:28:52
1659
原创 01 INFINI-GATEWAY简介
极限网关工作的方式和普通的反向代理一样,我们一般是将网关部署在 Elasticsearch 集群前面, 将以往直接发送给 Elasticsearch 的请求都发送给网关,再由网关转发给请求到后端的 Elasticsearch 集群。因为网关位于在用户端和后端 Elasticsearch 之间,所以网关在中间可以做非常多的事情, 比如可以实现索引级别的限速限流、常见查询的缓存加速、查询请求的审计、查询结果的动态修改等等。......
2022-06-30 10:33:17
781
原创 云平台发放的虚拟机无法提交spark任务到大数据集群上(双IP):Service ‘sparkDriver‘ failed after 16 retries...correct binding ...
1 现象描述部分异常: Service 'sparkDriver' failed after 16 retries.......correct binding address.云平台发放的虚拟机包含两个IP,包含虚拟机内部实际的网络地址(ifconfig查看到的内网IP:192.168.xx.xx)和对方访问的IP(绑定的外网虚拟IP:11.11.xx.xx),想要在云平台外访问虚拟机需要使用外网IP经过一次网络地址转换,直接使用内部IP是无法访问的。所以在当任务提交的时候实际使用的是内部
2022-05-28 16:15:52
548
1
转载 Java SPI详解
1.什么是SPI SPI全称Service Provider Interface,是Java提供的一套用来被第三方实现或者扩展的接口,它可以用来启用框架扩展和替换组件。SPI的作用就是为这些被扩展的API寻找服务实现。2.SPI和API的使用场景 API (Application Programming Interface)在大多数情况下,都是实现方制定接口并完成对接口的实现,调用方仅仅依赖接口调用,且无权选择不同实现。从使用人员上来说,API 直接被应用开发人员使用。 ...
2022-05-09 17:45:37
19128
2
转载 spark项目实战-电商分析平台
第1章 项目概述电商分析平台是对用户访问电商平台的行为进行分析。1.1 项目简介 本项目主要讲解一个大型电商网站后台的企业级大数据统计分析平台,该平台以 Spark 为主,对电商网站的流量进行离线和实时的分析。 该大数据分析平台对电商网站的各类用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的 PM(产品经理)、数据分析师以及管理人员分析现有产品的状况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数...
2022-03-25 09:53:54
17819
109
转载 图解JanusGraph内部数据存储结构
本文以图解的形式详细介绍了图数据库JanusGraph的内部数据存储结构,包括Vertex/Property/Edge等信息如何存储于HBase数据表中,以及各自的数据格式定义。在前面的文章中,我们介绍了图数据库的基本概念,并对Titan做了简单的介绍。开源Titan项目已经停止更新,JanusGraph是Titan项目的演进产品。到目前为止,JanusGraph与Titan在核心机制上相差不大。JanusGraph/Titan有如下关键设计: 支持大规模图数据存储,Titan图数据库是建
2022-03-16 11:44:56
962
1
转载 ES在数据量很大的情况下如何提高查询效率?
一、性能优化的杀手锏——filesystem cache你往es里写的数据,实际上都写到磁盘文件里去了,查询的时候,操作系统会将磁盘文件里的数据自动缓存到filesystem cache里面去。es-search-processes 的搜索引擎严重依赖于底层的filesystem cache,你如果给filesystem cache更多的内存,尽量让内存可以容纳所有的idx segment file索引数据文件,那么你搜索的时候就基本都是走内存的,性能会非常高。性能...
2022-03-16 10:36:16
4253
1
原创 Malformed \uxxxx encoding(亲测解决)
(1)在./m2/文件夹下,找到path-to-the-library,然后删掉(若无此文件,可直接忽略此步骤);(2)在./m2/repository文件夹下全局搜索:resolver-status.properties文件,将搜索到的所有此文件全部删除,然后重新编译即可。...
2022-03-16 09:23:32
5354
5
转载 atlas元数据存储之janusgraph
导语:Atlas 是一个可扩展的核心基础治理服务集 - 使企业能够有效地和高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统的集成。该项目用于管理共享元数据、数据分级、审计、安全性以及数据保护等各个方面,是数据治理的重要组成部分。本文介绍Atlas的存储子系统,分析Atlas的存储模型和各个元数据要素的存储结构。Atlas简介Atlas 是一个可扩展和可扩展的核心基础治理服务集 - 使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统...
2022-03-15 19:19:30
747
转载 PLEG is not healthy
前言在 Kubernetes 社区中,PLEG is not healthy 成名已久,只要出现这个报错,就有很大概率造成 Node 状态变成 NotReady。社区相关的 issue 也有一大把,先列几个给你们看看:https://stackoverflow.com/questions/53872739/how-to-fix-container-runtime-is-down-pleg-is-not-healthy[1] https://github.com/kubernetes/kubern
2022-03-10 15:30:09
1065
json paser 属于idea插件 用于解析json
2022-04-22
适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件
2019-04-17
《Spark大数据商业实战三部曲:内核解密 商业案例 性能调优》2018.02出版
2019-04-16
spark无法启动,日志无报错信息,具体如图片
2019-01-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人