基于二进制的日志文件分析技术与不平衡数据集处理方法
1. 日志文件分析背景与需求
日志文件中存储的数据量通常与从中获取的结果准确性成正比。例如,包含两行数据的日志文件与拥有数百万条交易记录的日志文件相比,难以得出有意义的信息。然而,大规模日志文件在分析时会增加执行时间成本。因此,降低用户请求的延迟在过去几年中引起了众多研究人员的关注。随着对用户信息需求的增加,在短时间内从大型数据存储库(如日志文件)中发现隐藏信息变得至关重要。
2. 相关研究工作
- 日志文件用途研究
- 有研究描述了不同日志文件(如传输日志、代理日志、错误日志和引用日志)在管理带宽和服务器容量方面的用途,并阐述了IIS Web服务器日志从获取原始日志文件到挖掘过程初始化前的整个处理流程,但未详细讨论分析方法。
- 另一项研究引入了一种方法,通过深入分析NASA网站的Web日志数据,帮助系统管理员调整基于Web的应用程序性能,可捕获诸如顶级错误和潜在网站访问者等有价值信息,还能确定服务器关闭的合适日期。
- 还有研究通过分析服务器日志文件和访问页面内容的元数据来推导用户兴趣,采用统计和图分析两种方法,使用权重因子(在页面上花费的时间)而非访问频率来分析日志文件。
- 频繁项挖掘算法
- Apriori算法 :使用广度优先方法,对日志文件进行多次遍历。首先获取单个可用项的频率,然后选择最常访问的项与所有可用项配对并再次计算和比较访问频率,接
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



