日志分析代码实现(正则表达式)

最新推荐文章于 2025-05-28 13:31:56 发布

weixin_33717117

最新推荐文章于 2025-05-28 13:31:56 发布

阅读量773

点赞数

CC 4.0 BY-SA版权

文章标签： c# java 运维

原文链接：https://yq.aliyun.com/articles/544610

本文介绍了一种利用正则表达式处理日志文件的方法，并通过具体示例展示了如何提取关键信息并将其转化为结构化的数据格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

日志分析代码实现(正则表达式)

思路

    使用正则表达式处理:
        使用正则提取对应内容
        每段数据转换为对应格式
        精简代码,异常处理,代码效率检查

import datetime

import re

logline = '''183.60.212.153 - - [19/Feb/2013:10:23:29 +0800] \ "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" \ "Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)"''' # 使用正则表达式的命名分组,可以直接根据分组名和对应匹配字段 # 进行对应生成新字典 def log_clean(line:str): pattern = '''(?P<remote>([\d\.]{7,})) - - \[(?P<time>[^\[\]]+)\] \"(?P<request>[^"]+)\" (?P<status>\d{3}) (?P<size>\d+) \"-\" \"(?P<useragent>[^"]+)\"\s?''' regex = re.compile(pattern) matcher = regex.fullmatch(line) if matcher: # None时,异常处理 return { k:operations.get(k,lambda x:x)(v) for k,v in matcher.groupdict().items()} operations = { 'time':lambda time: datetime.datetime.strptime(time, '%d/%b/%Y:%H:%M:%S %z'), 'request': lambda request: dict(zip(('method','url','protocol'),request.split())), 'status': int, 'size': int } print(log_clean(logline)) 本文转自撒旦搞时间 51CTO博客，原文链接：http://blog.51cto.com/12074120/1980428，如需转载请自行联系原作者