
分布式
文章平均质量分 50
codeRichLife
微服务、IOT、物联网、工业互联网、分布式、项目管理、架构、AI、数字化
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NIFI在Linux系统中的系统配置最佳实践(性能调优)
修改 /etc/security/limits.conf文件,修改最大文件句柄数。可以参考如下Linux操作系统设置的最佳实践。也有可能需要修改 /etc/security/limits.d/90-nproc.conf,依具体的操作系统为准。NiFi可能会配置大量线程,修改/etc/security/limits.conf文件,修改最大文件句柄数。本篇文章只是Linux操作系统方面的最佳实践,实践中需要结合NiFi自身的配置参数,综合进行调优。大量的流文件在磁盘和内存间进行交换,对性能的影响非常大。原创 2025-06-11 19:30:00 · 308 阅读 · 0 评论 -
NIFI的处理器:ConsumeMQTT 2.4.0
MQTT Specificaton Version: MQTT版本,下拉选单,默认值是V3 AUTO, 还有v3.1.0, v3.1.1, v5.0;需要注意的时,当NIFI为集群时,可以将该处理器设置为只在主节点运行,否则,可能会出现重复消费的问题。Quality of Service(QoS):下拉选单,0是最多一次,1是至少一次,2是恰好一次;Record Reader:用于将接收到的MQTT消息解析为记录的记录读取器,默认值为空。Topic Filter: 过滤器,用于过滤订阅的主题;原创 2025-06-10 18:11:35 · 356 阅读 · 0 评论 -
NIFI的处理器:SplitJson 2.4.0
该处理器将JSON文件拆分为由JsonPath表达式指定的数组元素的多个单独的FlowFiles。每个生成的FlowFile都由指定数组的一个元素组成,并传输到关系“split”,原始文件传输到“original”关系。需要知道的是,该处理器支持添加自定义的属性,这样就可以进行一些扩展。比如,当不同类型的设备采集数据通过不同的数据流汇入时,可以对各类型的设备采集数据定义不同的属性值,以在数据流的下游业务系统进行区分。值为$.*时,表示按各个元素进行拆分。Max String Length:支持的最大长度。原创 2025-06-09 20:30:00 · 313 阅读 · 0 评论 -
NIFI 1.28简介
数据流的存在是为了连接一个本质上是大规模分布式的组件系统,这些组件要么松散地设计在一起,要么根本不设计在一起。比如,json、logs、put、query、record、source、consume、delete、get等,使用起来很方便。该版本相较与2.40版本,一个优点是较为成熟,很多第三方产品有基于该版本NIFI的扩展处理器,这样在处理数据集成的时候会很方便,减少了开发量。系统到系统和系统到用户的交互必须是安全的、可信的、可问责的。你总是会得到太大、太小、太快、太慢、损坏、错误或格式错误的数据。原创 2025-06-07 11:32:30 · 232 阅读 · 0 评论 -
EMQX将社区版和企业版统一到一个强大的 EMQX 平台
教育和非营利用途:经认可的学术机构和注册的非营利组织可以在生产环境中使用 EMQX,不受节点限制,前提是使用是非商业性的,并且不涉及提供 EMQX 即服务。单节点生产用途:允许在生产环境中的单节点实例上运行 EMQX,前提是您不将 EMQX 本身作为商业托管服务提供,也不将其直接嵌入到您销售的商业产品中。商业 SaaS 或托管产品:将 EMQX 或直接基于 EMQX 的服务作为商业托管服务的一部分提供给第三方。商业产品嵌入/分发:将 EMQX 嵌入到销售或商业分发给最终用户的软件或硬件产品中。原创 2025-05-29 19:30:21 · 861 阅读 · 0 评论 -
NIFI的性能调优
3.平衡 NiFi 内存使用和磁盘 I/O 的关键参数。当队列中的 FlowFile 数量超过此阈值时,NiFi 会将部分 FlowFile 元数据和内容交换到磁盘,以释放内存。关键:将 provenance_repository、content_repository 和 flowfile_repository 分别挂载到独立的物理磁盘或 SSD 上,避免 I/O 竞争。1.增加内存:增加JVM内存分配,以减轻I/O压力。这里只考虑NIFI自身的参数,不考虑操作系统的参数配置。内存充足时,可以增大该值。原创 2025-05-27 19:42:26 · 291 阅读 · 0 评论 -
NIFI的处理器:RouteOnContent 1.28.1
将正则表达式应用于FlowFile的内容,并将FlowFile的副本路由到正则表达式匹配的每个目标。正则表达式作为用户定义的属性添加,其中属性的名称是关系的名称,值是与FlowFile内容匹配的正则表达式。用户定义的属性确实支持属性表达式语言,但结果被解释为文字值,而不是正则表达式。该处理器根据流文件内容进行匹配和路由,因此它会对性能产生影响,尤其是当文件内容较大时。操作:点击“+”号,即add Property按钮,输入Property name的值为info,表达式值为.*Info.*。原创 2025-05-22 19:56:32 · 277 阅读 · 0 评论 -
NIFI的处理器:JoltTransformJSON 2.4.0
该处理器将Jolt规范列表应用于FlowFile JSON内容或指定的FlowFile JSON属性。如果JSON转换失败,则将原始FlowFile路由到“失败”关系。Jolt是一个用Java编写的JSON到JSON的转换库,其中转换的“规范”本身就是一个JSON文档。处理器JSLTTransformJSON是另一个转换库。直觉上语法复杂了一点。原创 2025-05-21 19:45:07 · 174 阅读 · 0 评论 -
NIFI的处理器:JSLTTransformJSON 2.4.0
使用转换后的内容创建新的FlowFile,并将其路由到“成功”关系。如果JSLT转换失败,则将原始FlowFile路由到“失败”关系。需要注意的是,编译JSLT转换可能相当昂贵。但是,如果在转换中使用表达式语言,我们可能需要为每个FlowFile创建一个新的转换。一种用于测试JSON对象的过滤/检查语言(以(.foo.bar[0],“http://”开头),JSLT是一种完整的JSON查询和转换语言。一种从JSON(.foo.bar[0])中提取值的查询语言,一种用于在JSON格式之间进行转换的转换语言。原创 2025-05-21 23:45:00 · 437 阅读 · 0 评论 -
NIFI的处理器:ExecuteGroovyScript 2.4.0
如果选择了“转移到失败”并且发生了未处理的异常,则此会话中从传入队列接收到的所有flowFiles都将转移到“失败”关系,并设置了其他属性:ERROR_MESSAGE和ERROR_STACKTRACE。如果选择了“回滚”并且发生了未处理的异常,则从传入队列接收到的所有flowFiles都将受到惩罚并返回。该脚本的性能大约是java语言的10%,性能不高,调试效率也很低,但是编写灵活,使用方便。// 遍历 plc1 和 plc2,并提取每个设备的数据。// 将转换后的数据添加到输出列表。原创 2025-05-21 23:15:00 · 478 阅读 · 0 评论 -
elasticsearch7.5 安全设置
一 所有节点上修改配置文件echo "xpack.security.enabled: true" >> elasticsearch.ymecho "xpack.security.transport.ssl.enabled: true" >> elasticsearch.yml二 在cluster.initial_master_nodes中的任一节点上执行如下命令,生成authentication schema和私钥./bin/elasticsearch-cert...原创 2021-02-22 15:08:03 · 349 阅读 · 0 评论 -
elasticsearch 7.5集群部署
前提条件:1. 已安装jdk1.8或以上版本;2. 已下载安装包:elasticsearch-7.5.1-no-jdk-linux-x86_64.tar.gz;3. 三台服务器:10.1.32.10, 10.1.32.11, 10.1.32.12, root权限。步骤(以10.1.32.10为例):1. 修改系统配置。a) 用户最大可创建文件数,编辑limits.conf配置文件:vi /etc/security/limits.conf然后添加如下内容:...原创 2021-02-22 15:03:45 · 390 阅读 · 0 评论 -
温习zookeeper3.6.2的curator-client5.1.0
实现了zookeeper上节点的增,删,改,查和监听功能。1.pom.xml配置:<!-- 关于Zookeeper客户端的封装,这里只引用的recipes和client --> <dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-recipes</artifactId> <version>5.1.0<原创 2021-01-06 16:36:28 · 1086 阅读 · 0 评论 -
2020-10-23 kafka 高吞吐量性能揭秘
https://blog.youkuaiyun.com/stark_summer/article/details/50144591转载 2020-10-23 15:50:21 · 124 阅读 · 0 评论 -
2020-10-23 重温apache storm
Apache Storm 是一款免费并且开源的分布式实时计算系统。Apache Storm使得无边界的流式数据处理非常简单。Apache Storm支持多种编程语言,用起来简单有趣。Apache Storm支持多种应用场景:实时分析、在线机器学习、流式计算、分布式的RPC、ETL等。Apache Storm是快速的,单节点每秒可处理超过100万条tuple。Apache Storm是可伸缩的、容错的、确保数据能被处理,并且易于安装和运维。Apache Storm集成了常用的队列和数据库技术。S原创 2020-10-23 11:17:37 · 124 阅读 · 0 评论 -
2020-10-20 kafka基本命令
kafka基本命令通过kafka-topics.sh脚本来创建一个名为topic-test1并且副本数为2、分区数为4的topic:bin/kafka-topics.sh --create --zookeeper 192.168.0.2:2181/kafka100 --topic topic-test1 --replication-factor 2 --partitions 4查看topic 属性:bin/kafka-topics.sh --zookeeper zk1:2181 --descri原创 2020-10-20 19:49:11 · 152 阅读 · 0 评论 -
2020-10-20 重温Flume
Flume是一个实时日志收集工具,具有分布式,高可靠,高可用等特点。接受各类型数据发送方 ,对数据可进行简单的处理,传输到各类数据接收方。目前生产中,使用flume采集请求日志到kafka,然后通过storm读取kafka中的数据保存到数据。1.可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),原创 2020-10-20 11:17:57 · 135 阅读 · 0 评论 -
谷歌三大核心技术(二)Google MapReduce中文版
http://www.open-open.com/lib/view/open1328763069203.html转载 2017-09-11 21:33:20 · 280 阅读 · 0 评论 -
基于ZooKeeper的分布式Session实现
http://www.open-open.com/lib/view/open1325412725125.html转载 2017-09-11 21:35:24 · 197 阅读 · 0 评论 -
Google的十个核心技术
http://www.open-open.com/lib/view/open1354780280616.html 本篇将主要介绍Google的十个核心技术,而且可以分为四大类:1.分布式基础设施:GFS,Chubby和Protocol Buffer。2.分布式大规模数据处理:MapReduce和Sawzall。3.分布式数转载 2017-09-12 22:04:50 · 6265 阅读 · 0 评论 -
谷歌三大核心技术(一)Google File System中文版
The Google File System中文版译者:alex 摘要我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。 虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们的设计还是以我们对自己的应用的负载情况和转载 2017-09-12 22:25:33 · 420 阅读 · 0 评论 -
谷歌三大核心技术(一)Google File System中文版
转载路径:http://www.open-open.com/lib/view/open1328763454608.html转载 2017-09-11 18:48:38 · 431 阅读 · 0 评论