
bigdata
文章平均质量分 68
data
大怀特
万物之始,大道至简,衍化至繁
展开
-
ubuntu 软件管理
ubuntu软件管理有些时候,您使用 dpkg 安装一个软件包,系统会提示您该软件包依赖其它软件包。这时,您先安装其它软件包,直到满足依赖关系为止。或者同时安装多个软件包dpkg -i aaa.deb bbb.deb ccc.deb如果一个软件依赖关系过于复杂,使用 dpkg来安装它,并不是一个明智的选择,这个时候您就需要用到 APT 软件包管理系统。APT 可以自动的检查依赖关系,通过您预设的方式原创 2022-08-19 17:27:51 · 841 阅读 · 0 评论 -
linux集群基础准备(updating)
linux集群基础准备原创 2022-07-22 09:58:40 · 164 阅读 · 0 评论 -
UDF 编写与注册
udf编写与注册原创 2022-07-14 16:21:47 · 524 阅读 · 0 评论 -
apache atlas
apache atlas翻译 2022-07-04 16:39:54 · 740 阅读 · 0 评论 -
Spark Partitioning on Disk with partitionBy
文章目录内存分区 VS 磁盘分区简单例子Spark writters 允许对数据 partitioned 到磁盘使用partitionBy. 一些查询可以运行50到100倍的更快的在partitioned 数据湖, 所以分区对确定的查询至关重要.创建或维护分区数据湖非常难.这个博客发布讨论怎样使用partitionBy和解释partitioning在生产磁盘数据集的挑战.不同内存partitioning方法会被讨论,让partitionBy操作更有效.你需要掌握在这里的概念来创建分区数据湖在大数据集翻译 2022-04-03 23:24:47 · 268 阅读 · 0 评论 -
Spark 指定日志级别
文章目录方法1(n)方法2(n)方法3(n)方法4(n)方法5(y)环境:spark2.4.8方法1(n)按官方文档上来说只需要修改spark运行环境中log4j.property模板改log4j.propert文件,再修改其中级别即可用,实际上无效方法2(n)import org.apache.log4j.{Level, Logger}Logger.getLogger("org").setLevel(Level.WARN)方法3(n)import org.apache.spark.s原创 2022-03-04 20:23:53 · 1838 阅读 · 0 评论 -
SparkSQL优化分析--saveAsTable
文章目录问题点:优化点:环境 spark2.4.8 on yarn(hadoop2.4.5)优化后package com.bl.bigdata.cdp.execservice.service.batch.schedule.commonimport com.bl.bigdata.cdp.execservice._import com.bl.bigdata.cdp.execservice.utils.business.TableUtilsimport com.bl.bigdata.cdp.ex原创 2022-03-04 19:59:23 · 2932 阅读 · 0 评论 -
Alink Is Now Open Source
By Yang Xu, nicknamed Pinshu at Alibaba.The progress ofFlinkin the machine learning field has long been the focus of many developers. This year, a new milestone was set in the Flink community when we open-sourced theAlinkmachine learning algorithm ...转载 2022-01-25 13:45:36 · 324 阅读 · 0 评论 -
SparkMLib 数据类型 - Data sources
文章目录图数据源spark2.4.8介绍怎样在ML中使用数据源来加载数据. 除此之外一些常用的数据源像Parquet, CSV, JSON 和JDBC,提供了一些专用的数据源.图数据源图数据源被用来加载目录中图文件,它可以加载被压缩的图片(jpeg,png,等)为原始图片,通过Java 类库中ImageIO. 加载的DataFrame有一个StructType列:“image”,包含图片数据存储图片模式. 图片列模式:origin: StringType(代表图文件路径)height: I原创 2022-01-20 09:48:56 · 1564 阅读 · 0 评论 -
SparkMLib 数据类型 - 基于RDD API
文章目录Local vectorLabeled pointLocal matrixDistributed matrixRowMatrixIndexedRowMatrixCoordinateMatrixBlockMatrixspark2.4.8MLlib支持local vectors 和 matrices 存储在单台机台上,也可以分发matrices 依靠一个或多个RDD. Local vectors 和 local matrices 是简单的数据模型,作用于公共接口. 底层的 linear alge原创 2022-01-19 18:27:33 · 2296 阅读 · 0 评论 -
Authentication of elastic was terminated by realm reserved – How to solve related issues
Before you begin reading this guide, we recommend you run theElasticsearch Error Check-Upwhich can resolve issues that cause many errors.This guide will help you check for common problems that cause the log “Authentication of Elastic was terminated by ..转载 2021-12-30 15:37:07 · 8033 阅读 · 0 评论 -
elastic Q&A(updating)
文章目录elasticsearchjava clientelasticsearchjava clientjava client连接带基础安全ES URI uri = ElasticSearchClient.class.getClassLoader().getResource("http.p12").toURI(); Path trustStorePath = Paths.get(uri); KeyStore truststore = KeyStore.getInstance("pkcs1原创 2021-12-28 16:56:03 · 2603 阅读 · 0 评论 -
elastic7.16 install 0 - Configure security for the Elastic Stack
文章目录Security needs vary depending on whether you’re developing locally on your laptop or securing all communications in a production environment. Because security needs vary, the following scenarios provide options for configuring the Elastic Stack.Each转载 2021-12-20 20:53:09 · 150 阅读 · 0 评论 -
elastic7.16 install 1 - Set up minimal security for Elasticsearch
文章目录PrerequisitesEnable Elasticsearch security featuresNext: Configure Kibana to connect to Elasticsearch with a passwordConfigure Kibana to connect to Elasticsearch with a password这时主要看自动生成密码就可以了,参考配置kibanaYou enable the Elasticsearch security features翻译 2021-12-20 20:51:07 · 1258 阅读 · 0 评论 -
elastic7.16 install 0 - Set up basic security for the Elastic Stack
文章目录Generate the certificate authorityEncrypt internode communications with TLSGenerate the certificate authorityGenerate the certificate authorityeditYou can add as many nodes as you want in a cluster but they must be able to communicate with each othe转载 2021-12-20 18:22:09 · 91 阅读 · 0 评论 -
trino 安装(带web ui 与 coordinator 和 worker 与 coordinator 安全通讯)
文章目录securityauthenticationself signed certificateauthorization(todo)configcoordinatorworkersecurityauthenticationself signed certificate# Write down the Common Name (CN) for your SSL Certificate. The CN is the fully qualified name for the system that u原创 2021-12-16 18:07:38 · 4790 阅读 · 0 评论 -
为Elastic栈配置安全 - 基础安全配置(生产环境)
在最少安全配置增加密码保护之后 ,需要配置TLS. 传输层处理所有内部通讯在集群中的所有节点.重要:如果你的集群有多个节点,一定在每个节点配置TLS,生产模式下如果没有配置TLS,集群不能启动.传输层依赖在相互的TLS为节点间加密和认证.正确的应用TLS确保恶意节点加入集群交换数据和其它节点.当实现用户和密码认证在HTTP层,对本地集群安全是非常有用的,节点间安全通讯需要 TLS.配置TLS在不同节点是基础的安全配置,来阻止未授权节点访问集群.了解传输环境传输层安全(Transport Lay翻译 2021-12-14 17:20:06 · 623 阅读 · 0 评论 -
为Elastic栈配置安全 - 最少安全配置(ES开发环境)
文章目录提前准备开启ES安全特性为内置用户配置密码配置Kibana用密码连接ES下边做什么?开启ES安全特性,然后创建密码为内置用户.之后你可以增加更多用户,但是使用内置用户简化了程序开启安全为你的集群.重要:最少安全场景对生产集群是不够的.如果你集群有多个节点,必需开始 最少安全配置,然后配置TLS在他们之间.提前准备安装配置ES和Kibana.查看入门ES栈核对你使用license,包含你想要的专门的安全特性.基础license 包含最小安全配置为ES栈,所以你仅仅可以下载分发然后去配翻译 2021-12-14 16:14:45 · 596 阅读 · 0 评论 -
为Elastic栈配置安全 - 概览
文章目录最低安全配置(ES开发环境)基础安全配置(ES生产环境)基础安全加上安全HTTPS通讯(ES 栈)安全需要差异依赖是否你本地开发或是获得通讯在生产环境.由于安全需求不同,下边场景为配置Elastic栈提供选项.建议:每个随后的场景老师构建在上一个,所以你可以增加额外安全通过 在已存在的层.最低安全配置(ES开发环境)如果你想要设置ES在你的开发电脑,这个场景适合你.这个配置阻止未授权来访问你的本地集群,通过设置内置用户和密码.你可以配置密码授权给Kibana.重要:最低安全场景对生翻译 2021-12-14 15:28:03 · 141 阅读 · 0 评论 -
elasticsearch集群搭建
文章目录elasticsearch.ymlelasticsearch.yml# Pass an initial list of hosts to perform discovery when this node is started:# The default list of hosts is ["127.0.0.1", "[::1]"]# discovery.seed_hosts: ["host1", "host2"]discovery.seed_hosts: ["10.201.128.75",原创 2021-12-13 14:52:30 · 1322 阅读 · 0 评论 -
How to create a self-signed SSL Certificate
文章目录OverviewStep 1: Generate a Private KeyStep 2: Generate a CSR (Certificate Signing Request)Step 3: Remove Passphrase from KeyStep 4: Generating a Self-Signed CertificateStep 5: Installing the Private Key and CertificateStep 7: Restart Apache and Testoth原创 2021-12-13 10:11:43 · 409 阅读 · 0 评论 -
Trnio - 安装
安装部署trino需要Linux 操作系统Java 运行运行环境Python安装 trion配置Node 属性JVM配置配置属性Catalog 属性Trino server 可以被安装部署到大量不同平台.一般你运行集群用一个coordinator 和多个woker.你可以找到部署群集的说明和相关信息,在下文.部署trino需要Linux 操作系统一定为64位最好最新版本,尤其当运行在容器上.为用户提供足够限制运行trino进程.这些限制可能依赖你使用的指定发布的linux. open fil翻译 2021-12-08 14:13:48 · 1400 阅读 · 0 评论 -
Trino文档 - 概览(新)
概览使用案例Trino 不能做什么Trino 可以做什么1.2 Trino 概念概览Server类型Coordinatorworker数据源ConnectorCatalogSchemaTableQuery执行模型StatementQueryStageTasksplitDriverOperatorExchangeTrino 是一个分布SQL查询引擎,设计用来查询大的分布式数据集,分布在一个或更多不同总类的数据源.使用案例这节全面介绍Trino,这样潜在的管理员和用户知道可以从Trino期待什么.Tri翻译 2021-12-07 19:05:52 · 2747 阅读 · 0 评论 -
Spark 2.4.8 Job调度
Spark 2.4.8 Job调度概览跨应用程序调度动态资源分配配置和设置资源分配策略请求策略移除策略优雅关闭ExecutorsApplication内部调度概览Spark 有多种工具为资源调度在复杂计算. 首先,回顾下,在集群模式概念中,每个 Spark application(SparkContext实例)运行一个独立一组executor 进程.群集管理 Spark运行的集群管理器提供工具为了调度跨应用. 其次,每个Spark application, 多个"jobs"(spark actions)翻译 2021-12-04 19:40:34 · 564 阅读 · 0 评论 -
Apache phoenix操作注意事项[hbase1.2]
Apache phoenix操作注意事项 [hbase1.2]环境命令语法创建表删除表导入数据环境APACHE_PHOENIX-4.14.0-cdh5.11.2.p0.3HBase1.2``自带客户端```bash$PHOENIX_HOME/bin/phoenix-sqlline.py zookeeper_url[:port]命令列出所有表!tables语法创建表create table xx.xxx(mobile varchar primary key,id varcha原创 2021-12-03 10:44:16 · 1636 阅读 · 0 评论 -
Spark 2.4.8 提交应用
Spark 2.4.8 提交应用Submitting Applications捆绑你应用程序的依赖用spark-submit启动应用程序Master URLs从文件中下载配置文件高级依赖管理更多信息Submitting Applications在Spark目录中bin下spark-submit脚本用来启动在集群上的应用程序.它可以使用Spark支持的所有集群管理器,通过一致的接口,这样你不需要为你每个程序有专门的配置.捆绑你应用程序的依赖如果你的代码依赖其它项目,你将需要打包它们在你应用里,为了分发翻译 2021-12-03 00:09:10 · 237 阅读 · 0 评论 -
Spark - 延时计算
延时计算1. 目的1. 目的翻译 2021-11-30 23:55:23 · 594 阅读 · 0 评论 -
Spark3 用户定义聚合函数(UDAFs)
描述用户定义聚合函数(UDAFs)是用户常用的编程,一次作用在多行,并且返回一个聚合的值作为结果.文档列出需要创建注册UDAF的相关类.包含一些例子和示例在Scala中怎样定义和注册UDAF,和在SparkSql中调用.聚合器[-IN,BUF,OUT]用户定义聚合的基础类,它可以在Dataset操作使用,处理一个组里的数据,并且缩减为一个单独的值.IN 聚合操作的输入类型BUF 缩减数据的中间类型OUT 最后输出结果类型bufferEncoder: Encoder[BUF] 指定中间处理数据翻译 2021-11-19 20:45:00 · 422 阅读 · 0 评论 -
Spark RDD 教程
使用scala来编写Apache Spark RDD教程会帮你开始明白使用SparkRDD(弹性分布式数据集). 你可以学习到什么RDD及他的优势,限制,创建RDD,使用transformations,actions和操作KV RDD.什么是RDD(强性分布式数据集)RDD是spark数据结构的基础,配线架spark spark core数据的核心抽象. RDDs是容错的,不变的分布式数据集,也就是说你创建后的RDD不能改变.每个 RDD会划分成逻辑分区,这些分区可以在集群中不同节点上运算.换言.翻译 2021-11-19 13:41:25 · 475 阅读 · 0 评论 -
Spark Sql Join操作类型
Spark DataFrame支持所有基本SQL Join类型的操作,如INNER,RIGHT OUTER,LEFT ANTI, LEFT SEMI, CROSS, SELF JOIN. Spark SQL Join操作是宽转换操作,结果数据会重组在网络中,因此会有非常大的性能问题,当不仔细设计.翻译 2021-11-16 22:28:18 · 1150 阅读 · 0 评论 -
为什么你的Spark应用执行的慢并且失败 - 数据倾斜和垃圾回收
像很多Spark性能上的挑战一样,这些症状也会出现程序处理数据增加而增加.什么是数据倾斜在理想的Spark程序,当运行join操作, join key将要平均分布到不同分区, 非常漂亮的组织不同分区来处理. 真实的业务数据是非常罕见这么整齐的组织. 通常结束...翻译 2021-11-12 17:39:24 · 1280 阅读 · 0 评论 -
Flink1.4 Checkpoints
概览Checkpoints可以拿Flink中的状态具有容错性,它是通过允许恢复状态和流原有的位置,因此使应用程序具有无故障运行语义.查看Checkpointing来为你的程序开启和配置checkpoints功能.checkpoint存储当开启checkpointing,管理状态被持久化来保证任务失败恢复到一致性. checkpoiting过程中持久化状态被保存在哪里是依赖选择什么Checkpoint存储.可用的Checkpoint存储选项Flink捆绑提供checkpoint存储类型翻译 2021-11-10 15:02:38 · 1166 阅读 · 0 评论 -
为什么你的Spark应用执行的慢并且失败 - 内存管理
Spark应用依据计划执行时, 非常容易编写, 也非常容易懂. 然而, 当spark应用执行非常慢或失败时就变得非常难了. 有时一个好的调优可能因为数据变化或者数据布局变化或而失败, 有时应用程序在一开始时运行良好,但由于资源不足而变差. 有非常多这样的例子.不仅了解Spark应用非常重要, 也需要了解底层运行时组件, 像磁盘利用率, 网络利用率,相互之前的竞争等等. 当应用出现不好的情况下,需要做出明智的决定.在一系列文章, 我专注于最通用的原因,为什么Spark应用失败或执行的非常慢. 首要和.翻译 2021-11-09 17:01:44 · 2848 阅读 · 0 评论 -
Flink1.14 - 生产就绪检查清单
生产就绪检查清单提供一个配置文件的概览,在投放到生产前应该应该细心考虑.虽然Flink社区尝试提供一些明智的配置,那也是非常重要的来确认每个选项是否满足你的需求.设置一个显示的最大并发数最大并发数设置在每个job和每个操作上,决定最大的并行,状态的并行是可以被扩容的. 在任务开始时目前没有办法改变操作的并行,不丢失操作状态. 存在最大并行数的原因, 对比允许操作状态被无限扩展,是因为你的应用性能的状态的太小会被影响. 一般来说,你应该用最大的并行度,足够适合你以后的扩展,同时 保持他满足你最小的性能翻译 2021-11-09 13:37:33 · 198 阅读 · 0 评论 -
hadoop2.6.5 yarn-site.xml(updating)
键 值 描述 yarn.acl.enable false 管理员执行操作时来检查用户或组是否指定访问控制列表(ACL) yarn.admin.acl原创 2022-01-18 10:47:02 · 1660 阅读 · 0 评论 -
phoenix概览
概览在Hadoop中Phoenix是用来做OLTP和业务分析,并且以一种低延时的方式把两个结合起来.强大的标准的SQL和JDBC API,并且可以具有完整的ACID事务能力 利用HBase作为后端存储,在NoSql中可以schema-on-read能力,和灵活的后绑定.Phoenix可以集成到其它的Hadoop框架中,像Spark,Hive,Pig,Flume和MapReduce.使命成为可依赖的OLTP和业务数据分析的数据平台,为Hadoop定义工业标准的API.快速入门已经读翻译 2021-11-04 23:26:19 · 143 阅读 · 0 评论 -
Orc概览
对Hadoop运行负载来说,Orc格式是最小,运行最快的列式存储, 它具有以下特点:ACID事务支持包含支持ACID事务和快照隔离.内建索引用索引方式可以跳到合适的位置,每列包含最小,最大也包含bloom过滤器.复杂类型支持Hive的所有类型,包含复杂类型,struct,lists,maps和unions快速入门在Hive中运用 在Hadoop MapRed中运用 在Hadoop MapReduce中运用 在Java中使用Orc 核心功能ORC是Apache项目..翻译 2021-11-04 22:59:02 · 157 阅读 · 0 评论 -
Avro文档概览
介绍Apache Avro 是一个数据序列化系统Avro提供以下功能:非常的数据结构 一个紧凑,快速的二进制数据格式 一个容器文件,用来永久保存数据 远程过程调用(RPC) 动态语言可以简单集成.代码的生成既不需要读或写数据文件,也不需要实现RPC协议.代码生成是一个可选优化,仅仅是值得实现静态类型语言.结构Avro依赖结构,当读Avro数据是可读的,在写数据时才用到结构. 每个数据被写是没有每个值开销下,使序列化快并且生成的数据小. 这也促进了用脚本语言,因为数据和他的结构再一起翻译 2021-11-03 15:03:01 · 336 阅读 · 0 评论 -
Parquet
动机创建Parquet是利用压缩性,高效的列式存储来在Haddop生态圈任何项目中应用.记住Parquet是构建在复杂嵌套的数据结构, 并且使用记录分解和集成的算法在Dremely论文中描述.我们相信这种方法是更强大的的可以非常简单的使嵌套命令空间的扁平化.Parquet构建可以非常高效的压缩和编程结构.多个项目已经证明了应用正确的压缩与编码结构对项目的性能是多大的影响.Parquet允许压缩的结构指定到列层次,并且未来允许增加开发或实现的更多的编码.Parquet被任何构建.Hadoop生翻译 2021-11-03 12:49:53 · 730 阅读 · 0 评论 -
Hive文件压缩说明(转)
为什么要压缩在Hive中对中间数据或最终数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件,可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节省更多的I/O和使用更少的内存开销。压缩模式说明1. 压缩模式评价可使用以下三种标准对压缩方式进行评价:压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好。 压缩时间:越快越好。 已经压缩的格式文件是否可原创 2021-11-02 17:15:37 · 1204 阅读 · 0 评论