
数据挖掘
文章平均质量分 90
数据挖掘理论、算法与实践
王清欢Randy
解决问题,担当责任,优雅生活。
展开
-
ELK 收集 Docker 日志
文章目录00 收集日志的目的01 安装Docker环境1.1 Ubuntu18.04 安装Docker1.2 Docker安装Nginx镜像1.3 查看Docker镜像的日志文件02 Filebeat根据容器ID收集Docker日志03 Filebeat收集多个Docker容器日志3.1 启动多个容器3.2 配置Filebeat进行多容器日志收集04 根据服务类型收集多个Docker容器日志4.1 直接配置Filebeat收集多容器日志的缺陷4.2 安装与使用 docker-compose4.3 配置Fil原创 2022-04-10 11:19:35 · 9485 阅读 · 13 评论 -
使用 Kafka 缓存优化 ELK 日志收集
00 前言上回书,我们提到直接使用 Filebeat 在节点上采集日志数据然后直接传输给 Elasticsearch 存储,在日志规模较大时,可能导致 Elasticsearch 存储集群容量不足,或者出现性能瓶颈的问题。针对这个问题我们提出了👉 使用 Redis 缓存优化 ELK 日志收集 👈但是 ELK 使用 Redis 作为缓存的一个缺陷在于:Filebeat 采集的日志数据只能传输给 Redis 的单节点,不能传输给 Redis 集群或者 Redis 哨兵(在新版本中应该会有所改进)针对这个原创 2022-04-09 10:23:59 · 4837 阅读 · 2 评论 -
ELK 日志收集中使用 Nginx 代理优化 Redis 缓存
使用Redis 缓存优化 ELK 日志收集请参考文章 使用 Redis 缓存优化 ELK 日志收集01 ELK 使用 Redis 作为缓存的高可用架构ELK使用Redis作为缓存的一个主要缺陷是:被收集的数据只能够缓存在单台Redis中。这降低了整体架构的可靠性,为了解决这一问题,使用Nginx实现负载均衡,使用keepalived实现主从热备,使用nginx+keepalived的方式代理多台Redis,达到整体架构高性能高可靠的目的。如图所示架构主要分为四个部分:日志收集:Filebeat采原创 2022-03-15 11:23:10 · 7760 阅读 · 0 评论 -
使用 Redis 缓存优化 ELK 日志收集
01 使用 Redis 作为缓存的 ELK 架构直接使用 Filebeat 在节点上采集日志数据然后直接传输给 Elasticsearch 存储。这种架构有利于日志数据的时效性,但是当日志规模较大时,可能导致 Elasticsearch 存储集群容量不足,或者出现性能瓶颈。为了解决这一问题,可以使用缓存机制提高 ES 的可靠性和稳定性,即使 ES 集群宕机,在重新恢复之后可以从 Redis 中同步数据。Redis 是一种内存高速缓存数据库,以键值对的方式存储数据,具有可持久化,分布式扩展的特点。ELK原创 2022-03-15 11:10:07 · 7207 阅读 · 0 评论 -
ELK 收集 Java 后台日志
01 Java 日志样式Java日志的特点在于输出信息非常多,通常需要将多行日志信息拼成一个事件,所以需要多行匹配模式。由于Elasticsearch本身就是使用Java开发的,所以Java日志收集实例就直接收集ES的日志。如下所示是Elasticsearch的几条日志目录,可以看到这些日志条目通过第一个中括号中的时间戳进行区分,第二个日志条目中有多行Java日志,这多行日志组成了一个事件,怎么使用Filebeat采集这种多行日志呢?[2021-08-02T07:14:18,201][INFO ][o原创 2022-03-14 12:28:31 · 7970 阅读 · 0 评论 -
ELK 收集 Tomcat 日志
01 Tomcat 安装与测试1.1 安装 Tomcat安装Tomcat的本体和相关官方测试demo,参考链接apt-get install tomcat8 -y # 安装Tomcat本体apt-get install tomcat8-docs tomcat8-examples tomcat8-admin -y # 安装测试demo1.2 Tomcat 启动检查systemctl start tomcat8 # 启动Tomcatsystemctl status tomcat8netstat原创 2022-03-14 12:21:10 · 5340 阅读 · 0 评论 -
ELK 收集 Nginx 日志
01 安装 Nginx 和 ab 工具1.1 安装nginxsudo apt-get install nginx -y # 安装Nginxsudo apt-get install apache2-utils -y # Ubuntu安装ab工具sudo yum -y install httpd-tools 0y # CentOS安装ab工具在线安装完成后,Nginx主要文件目录构成如下/etc/nginx # 配置文件/etc/nginx/sites-available # 虚拟主机/u原创 2022-03-13 09:39:10 · 11411 阅读 · 0 评论 -
Filebeat 使用 Modules 方式收集日志
01 Filebeat模块配置Filebeat中Modules配置官方文档:官方配置文档filebeat配置文件/etc/filebeat/filebeat.yml,配置模块路径# =========================== Filebeat modules ================================filebeat.config.modules: # Glob pattern for configuration loading path: ${path.c原创 2022-03-11 09:37:28 · 5272 阅读 · 0 评论 -
ELK 简介与安装使用
01 ELK 简介1.1 ELK架构ElasticSearchElasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索,结构化搜索以及分析。它是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎,使用 Java 语言编写。LogstashLogstash 是一个具有实时渠道能力的数据收集引擎,主要用于日志的收集与解析,并将其存入 ElasticSearch中。KibanaKibana 是一款基于 Apache 开源协议,使用 JavaScript 语言原创 2022-03-11 09:33:47 · 6458 阅读 · 0 评论 -
Elasticsearch 常用运维工具
01 Elasticsearch x-pack 监控工具x-pack 是 Elastic Stack 扩展的功能,提供安全性,警报,监视,报告,机器学习和许多其他功能。 ES7.0+之后,默认情况下,当安装Elasticsearch时,会安装X-Pack,无需单独再安装。Elasticsearch x-pack02 ElasticSearch Search Guard 安全认证工具在 x-pack 免费安全认证功能之后,这个工具就显得比较鸡肋ElasticSearch Search Guard0原创 2022-03-11 09:22:41 · 4455 阅读 · 0 评论 -
Elasticsearch 集群基础管理与容错机制
01 Elasticsearch 集群基本概念集群的基本概念是存在多台机器,这些机器在同一个组中,这样一个组或多个组称为一个集群。1.1 Elasticsearch 的特点可以横向扩展至数百上千的服务器节点,实现同时处理PB级数据专门为分布式场景设计,并且在设计时尽可能地屏蔽了分布式的复杂性1.2 Elasticsearch 集群的概念节点:一个运行中的Elasticsearch实例称为一个节点集群:集群由一个或者多个拥有相同cluster.name配置的节点组成,他们共同承担数据和负载的原创 2022-03-10 09:32:30 · 5223 阅读 · 0 评论 -
Elasticsearch 基础操作与 ES-head 插件的使用
Elasticsearch 安装请参考 搭建ELK日志管理平台 - - 2 ElasticSearch部署01 创建索引curl -XPUT 172.16.255.131:9200/vipinfo # 创建数据库curl -XPUT 172.16.255.131:9200/vipinfo?pretty # json格式返回输出主节点:默认配置是1个分片1个副本主数据分片: 数据在分片中被分组存储,例如如果分片是3个的话,存入数据hello可能被拆分存储在这几个分片之中副本数据分片: 对数据原创 2022-03-09 13:49:57 · 7571 阅读 · 1 评论 -
搭建ELK日志管理平台
0 前期准备01 安装 JDK下载 JDK 压缩包 下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html解压文件 使用如下命令解压文件到/usr/local/jdk1.8 目录下sudo mkdir /usr/local/jdk1.8sudo tar -xzvf jdk-8u152-linux-x64.tar.gz -C /usr/local/jdk1.8设置环境变量 使用原创 2021-06-04 13:56:32 · 4301 阅读 · 2 评论 -
PyFlink 有状态流处理在线机器学习基础实例 手写体识别
01 在线机器学习1.1 在线机器学习简介准确地说,在线学习并不是一种模型,而是一种模型的训练方法。能够根据线上反馈数据,实时快速地进行模型调整,形成闭环的系统,同时也使得模型能够及时反映线上的变化,提高线上预测的准确率。在线学习与离线学习,在数据的输入与利用上有明显的区别:在线学习的训练数据是一条条(或者是 mini-batch 微批少量)进来的,不像离线学习时可以一次性加载大量的数据。在线学习的数据只能被训练一次,过去了就不会再回来,不像离线学习可以反复地在数据集上训练模型。原创 2022-02-25 11:01:51 · 5188 阅读 · 14 评论 -
PyFlink 有状态流处理实例 实时排行榜
01 UDAF 聚合函数的使用自定义聚合函数(UDAF),将多条记录聚合成一条记录。其输入与输出是多对一的关系,即将多条输入记录聚合成一条输出值。需要注意的是:当前聚合函数仅在流模式下的 GroupBy 聚合和 Group Window 聚合中支持通用的用户定义聚合功能;对于批处理模式,当前不支持该模式,需要使用向量化聚合函数。1.1 UDAF 的处理逻辑聚合函数的处理过程以累加器 accumulator 的为中心,累加器是一种中间数据结构,用于存储将多行输入计算出的最终聚合结果,即用来存储聚合的中原创 2022-02-24 11:32:10 · 5107 阅读 · 11 评论 -
Pyflink 自定义函数基础实例 日志监控
01 自定义函数概述自定义函数是 PyFlink Table API 中最重要的功能之一,其允许用户在 PyFlink Table API 中使用 Python 语言开发的自定义函数,极大地拓宽了 Python Table API 的使用范围。目前 Python 自定义函数的功能已经非常完善,支持多种类型的自定义函数,比如 UDF(scalar function)、UDTF(table function)、UDAF(aggregate function),UDTAF(table aggregate fu原创 2022-02-22 09:39:58 · 4551 阅读 · 0 评论 -
PyFlink 流处理基础实例 MySQL CDC方式实时备份
01 JDBC SQL 连接器JDBC 连接器允许使用 JDBC 驱动向任意类型的关系型数据库读取或者写入数据。如果在 DDL 中定义了主键,JDBC sink 将以 upsert 模式与外部系统交换 UPDATE/DELETE 消息;否则,它将以 append 模式与外部系统交换消息且不支持消费 UPDATE/DELETE 消息。1.1 下载依赖包针对关系型数据库实现 Flink 通过建立 JDBC 连接器来执行 SQL 查询,要下载 flink-connector-jdbc 依赖包,其下载地址为原创 2022-02-23 09:12:34 · 8484 阅读 · 1 评论 -
PyFlink 批处理基础实例 词频统计
01 词频统计业务逻辑该实例的处理过程是通过 Flink 对文件存储系统里的数据进行离线批处理,统计指定文件下的单词数,并将统计结果存储到其他文件下。该实例业务实现过程如下:首先使用 filesystem 作为连接器,按照指定的 csv 格式来批量地读取指定路径的文件或文件夹,以此创建源数据表。然后,在 Flink 中执行批处理实例逻辑,完成批处理任务。最后,使用 filesystem 连接器,将处理后结果写入目标文件或文件夹内,构建结果表。02 Table API 实现词频统计Apac原创 2022-02-21 14:07:04 · 3680 阅读 · 0 评论 -
PyFlink Table API 基础程序结构
01 Python Table API 程序的基本结构所有的 Table API 和 SQL 程序,不管批模式,还是流模式,都遵循相同的结构。首先创建 TableEnvironment然后创建输入输出表接着基于输入表做查询并计算最后将计算结果写入输出表下面代码示例展示了上述 Table API 和 SQL 程序的基本结构:from pyflink.table import EnvironmentSettings, TableEnvironment# 1. 创建 TableEnviron原创 2022-02-20 17:02:40 · 2003 阅读 · 0 评论 -
Flink 安装与使用
01 本地模式安装 Flink1.1 软件包下载为了运行Flink,只需提前安装好 Java 8 或者 Java 11。可以通过以下命令来检查 Java 是否已经安装正确,如果没有的话,需要先安装 JDK。java -version在官方下载地址 下载对应版本并解压tar -xzvf flink-1.14.0-bin-scala_2.11.tgz -C ~/soft/cd ~/soft/flink-1.14.0/1.2 启动和停止 Flink 集群Flink 附带了一个 bash 脚本,原创 2022-02-20 16:56:20 · 9334 阅读 · 2 评论 -
Flink 基础概念
随着互联网的发展,整个社会的数据正在迅速膨胀并变大,它很大程度上决定着社会和企业的未来发展。而实时计算是大数据时代的重要角色,例如:实时推荐系统、搜索引擎的实时索引构建;实时数据仓库、实时大屏;系统实时监控、实时异常检测和预警等。总之,实时计算有着广泛的应用场景。主流流处理系统包括 storm、spark streaming、flink,它们都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现原创 2021-12-05 11:47:39 · 1986 阅读 · 0 评论 -
知识图谱 基于CRF的命名实体识别模型
基于CRF的命名实体识别模型条件随机场 CRF 条件随机场 CRF 是在已知一组输入随机变量条件的情况下,输出另一组随机变量的条件概率分布模型;其前提是假设输出随机变量构成马尔可夫随机场;条件随机场可以应用于不同类型的标注问题,例如:单个目标的标注、序列结构的标注和图结构的标注等。 在给定训练集 xxx 和对应的标记序列 yyy ,以及多个特征函数需要学习 CRF 的模型参数 λj,uk\lambda_j,u_kλj,uk 和 条件概率分布 P(y∣x)P(y|x)P(y∣x) ,条件概率和模原创 2021-04-11 14:02:53 · 13896 阅读 · 0 评论 -
知识图谱 Protege 本体构建
知识图谱 Protege 本体构建Protege 相关资源Protege OWL Tutorial 官方教程 : http://owl.cs.manchester.ac.uk/publications/talks-and-tutorials/protg-owl-tutorial/Protege Wiki 相关说明:https://protegewiki.stanford.edu/wiki/Main_PageProtege 使用 Manchester syntax描述逻辑 (DL, Descri原创 2021-03-20 13:07:30 · 16336 阅读 · 6 评论 -
从购物篮分析到关联规则挖掘 Apriori算法
从购物篮分析到关联规则挖掘 Apriori算法 随着大量数据不断的收集和存储,许多业界人士对于从他们的数据库中挖掘知识越来越感兴趣。对于商场而言,从大量的商务事务记录中发现有价值的的关联关系,可以为货物摆放和分析顾客购物习惯等许多商务决策过程提供帮助。购物篮分析 购物篮分析是一个典型的关联规则挖掘实例,例如如下图所示的9次购物中不同顾客购物篮中的商品,以此可以分析商品之间的关联和顾客的购物习惯,可以分析顾客可能会在一次购物中同时购买哪些商品。 一种简单的分析策略是通过搜索上述9个购买事务中的原创 2021-05-09 18:28:30 · 12414 阅读 · 2 评论 -
Weka CSV格式转ARFF格式文件
最近一直在用Weka做数据分析,用weka就必须要知道ARFF格式文件了,ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件,这种不常用的文件格式就需要一个能把其他格式文件直接转换成ARFF格式 首先介绍一下ARFF文件 :(详细内容请参考)https://blog.youkuaiyun.com/buaalei/article/det...原创 2018-05-20 18:34:22 · 5423 阅读 · 1 评论