将 AzureBlob 的日志通过 Azure Event Hubs 发给 Elasticsearch（3.纯python的实惠版）

petunsecn

已于 2025-01-20 12:04:28 修改

阅读量1.1k

点赞数 29

分类专栏： azure 文章标签： azure elasticsearch microsoft python

于 2025-01-17 15:08:34 首次发布

本文链接：https://blog.youkuaiyun.com/wgdzg/article/details/145207697

版权

前情：

将 AzureBlob 的日志通过 Azure Event Hubs 发给 Elasticsearch（1.标准版）-优快云博客

将 AzureBlob 的日志通过 Azure Event Hubs 发给 Elasticsearch（2.换掉付费的Event Hubs）-优快云博客

python脚本实现

厉害的小伙伴最终使用python脚本免费实现了这个功能

文件结构

以下是cursor对代码的评审意见：

这是一个用于下载 Azure Storage 访问日志并将其导入到 Elasticsearch 的项目。让我逐个文件分析：

1. 整体架构

项目采用了良好的模块化设计，主要包含以下组件：

main.py: 主程序入口，协调整体流程

azure_log_downloader.py: Azure blob 存储日志下载器

elasticsearch_sender.py: Elasticsearch 数据发送器

models.py: 数据模型定义

log_config.py: 日志配置

.env: 环境配置文件

2. 具体评审

main.py

优点：

支持日期范围处理

良好的错误处理和日志记录

模块化的设计，职责划分清晰

建议改进：

可以考虑添加命令行参数支持，使日期范围可配置

可以添加并发处理支持，提高处理速度

azure_log_downloader.py

优点：

清晰的类设计

良好的错误处理

建议改进：

可以添加重试机制

可以考虑支持异步操作

elasticsearch_sender.py

优点：

实现了批量处理

包含重试机制

良好的连接测试功能

建议改进：

可以考虑添加索引模板管理

可以添加更多的 ES 配置选项

models.py

优点：

使用 dataclass 简化了类定义

详细的字段解析逻辑

良好的类型注解

建议改进：

可以添加字段验证

可以考虑使用 Pydantic 进行数据验证

log_config.py

优点：

完善的日志配置

支持文件和控制台输出

建议改进：

可以考虑添加日志轮转

可以添加日志级别配置选项

3. 安全性建议

建议使用更安全的方式存储敏感信息（如 API keys）

建议添加 SSL 证书验证

建议添加请求速率限制

4. 性能建议

考虑添加并发处理

可以实现增量更新机制

考虑添加缓存机制

5. 可维护性建议

添加单元测试

添加更详细的文档

考虑添加监控指标

添加 CI/CD 配置

总体来说，这是一个设计良好的项目，代码质量较高，有良好的错误处理和日志记录。主要可以在性能优化、安全性和可维护性方面进行进一步改进。

具体脚本

1. azure_log_downloader.py:

from azure.storage.blob import BlobServiceClient
import json
from models import StorageOperationLog

class AzureLogDownloader:
    def __init__(self, connection_string, container_name, blob_name, logger=None):
        self.logger = logger
        self.connection_string = connection_string
        self.container_name = container_name
        self.blob_name = blob_name
        
    def _get_blob_client(self):
        blob_service_client = BlobServiceClient.from_connection_string(self.connection_string)
        blob_client = blob_service_client.get_blob_client(
            container=self.container_name, 
            blob=self.blob_name
        )
        return blob_client

    def download_and_transform(self):
        """Download and transform log data from Azure storage"""
        try:
            blob_client = self._get_blob_client()

            if not blob_client.exists():
                self.logger.info(f"Blob does not exist, skipping: {self.blob_name}")
                return []