apache访问日志access.log的解析以及如何将其导入mysql

本文详细解读Apache访问日志的结构,并通过使用awk处理日志文件,将其转换为MySQL数据库表中的数据,包括远程主机地址、访问时间、请求资源等关键信息。

首先,我们对apache访问日志进行一个解读,

220.181.108.92 - - [22/Aug/2013:23:59:59 +0800] "GET /min/f=/media/js/jquery-1.7.2.media/js/global_interaction.js&201308221836 HTTP/1.1" 200 70550 "http://adfdfs.com.cn1071-2130-1.html" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko Minefield/3.0"

第一项信息是远程主机的地址,即它表明访问网站的究竟是谁。

第二项是空白,用一个“-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识,这不只是浏览者的登录名字,而是浏览者的email地址或者其他唯一标识符,通常只是"-";

第三项也是空白用一个占位符"-"来替代。这个位置用于记录浏览者进行身份验证时提供的名字。当然,如果网站的某些内容要求用户进行身份验证,那么这项信息是不会空白的。但是,对于大多数网站来说,日志文件的大多数记录中这一项仍旧是空白的。

第四项,表示访问者的访问时间记录,无需多解释,时间信息最后的“+800”表示服务器所处时区位于UTC之后的8小时。

第五项,是整个日志记录中最有用的信息,它告诉我们服务器收到的是一个什么样的请求

第六项,200状态代码

第七项,70500,是服务器发送给客户端的总字节数

第八项,客户在提出请求时所在的目录或URL。

第九项,客户端的详细信息

根据需求可以建张表

CREATE TABLE IF NOT EXISTS `apache_log` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id号',
`hostip` char(32) NOT NULL DEFAULT '0.0.0.0' COMMENT '远程主机的IP地址',
`marking` char(30) COMMENT '浏览者的标识',
`client_name` char(30) COMMENT '浏览者的名字',
`addtime` char(64) NOT NULL COMMENT '浏览时间',
`time_zone` char(8) NOT NULL COMMENT '时区',
`method` char(8) NOT NULL COMMENT '方法',
`resource` char(64) NOT NULL COMMENT ' 请求的资源',
`protocol` char(8) COMMENT '请求使用的协议',
`status` int(5) COMMENT '状态代码',
`bytes` int(5) COMMENT '发送给客户端的总字节数',
`refer` char(128) COMMENT '客户在提出请求时所在的目录或URL',
`client_info` char(128) COMMENT '客户在提出请求时所在的目录或URL',
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

先用awk处理apache日志,将每一项都用空格分开,那么大家看到下面的好多数字就迷惑了,这到底是个什么东西呢。首先awk '{print 0 ,像apache日志的文本中每行写入一个0,原因是,表结构的第一个字段是自增列,我只要把0导入,0表示默认值,它就可以自动增长了。
cat apache_log|awk '{print 0 " "$1 " "$2 " "$3" " for (i=4;i<=NF;i++) printf $i;printf "\n"}'>> apache_log.txt


mysql>load data infile "/root/apache_log.txt" into table apache_log fields terminated by " " lines terminated by '\n';

ERROR 13 (HY000): Can't get stat of '/root/apache_log.txt' (Errcode: 13 - Permission denied)

mysql>load data local infile "/root/apache_log.txt" into table apache_log fields terminated by " " lines terminated by '\n';

Query OK, 2000 rows affected, 2672 warnings (0.61 sec)
Records: 2000 Deleted: 0 Skipped: 0 Warnings: 2672

顺便比较一下load data infile 和load data local infile 区别

如果你没有给出local,则服务器按如下方法对其进行定位:
1)如果你的filename为绝对路径,则服务器从根目录开始查找该文件.
2)如果你的filename为相对路径,则服务器从数据库的数据目录中开始查找该文件.
如果你给出了local,则文件将按以下方式进行定位:
1)如果你的filename为绝对路径,则客户机从根目录开始查找该文件.
2)如果你的filename为相对路径,则客户机从当前目录开始查找该文件.

mysql> desc apache_log;
+--------------+-----------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+--------------+-----------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| hostip | char(32) | NO | | 0.0.0.0 | |
| marking | char(30) | YES | | NULL | |
| browser_name | char(30) | YES | | NULL | |
| addtime | char(64) | NO | | NULL | |
| time_zone | char(8) | NO | | NULL | |
| method | char(8) | NO | | NULL | |
| resource | char(64) | NO | | NULL | |
| protocol | char(8) | YES | | NULL | |
| status | int(5) | YES | | NULL | |
| bytes | int(5) | YES | | NULL | |
| refer | char(128) | YES | | NULL | |
| client_info | char(128) | YES | | NULL | |
+--------------+-----------+------+-----+---------+----------------+
13 rows in set (0.00 sec)

mysql> select * from apache_log limit 3;
+----+-----------------+---------+--------------+-----------------------+-----------+--------+--------------------------------------------+----------+--------+-------+-------+------------------------------------------------------------------------------------+
| id | hostip | marking | browser_name | addtime | time_zone | method | resource | protocol | status | bytes | refer | client_info |
+----+-----------------+---------+--------------+-----------------------+-----------+--------+--------------------------------------------+----------+--------+-------+-------+------------------------------------------------------------------------------------+
| 1 | 220.181.108.116 | - | - | [21/Aug/2013:23:59:59 | +0800] | "GET | /search/prj/tag/2089-2124-2350-2354-1.html | HTTP/1.1 | 200 | 8181 | "-" | "Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)" |
| 2 | 220.181.165.5 | - | - | [21/Aug/2013:23:59:59 | +0800] | "GET | /event/bushanping/admin_login.php | HTTP/1.1 | 200 | 32095 | "-" | "Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;rv:1.9.1.1)Gecko/20090715Firefox/3.5.1" |
| 3 | 220.181.165.136 | - | - | [21/Aug/2013:23:59:59 | +0800] | "GET | /search/diy/server-status/ | HTTP/1.1 | 404 | 21795 | "-" | "Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;rv:1.9.1.1)Gecko/20090715Firefox/3.5.1" |
+----+-----------------+---------+--------------+-----------------------+-----------+--------+--------------------------------------------+----------+--------+-------+-------+------------------------------------------------------------------------------------+
3 rows in set (0.00 sec)

导入成功



### 查看和分析 Apache 访问日志的方法 #### 1. **查看 Apache 访问日志** Apache访问日志通常位于 `/var/log/apache2/access.log` 或 `/var/log/httpd/access_log`,具体路径取决于操作系统配置。可以通过以下命令查看: - 使用 `tail` 命令实时监控日志文件: ```bash tail -f /var/log/apache2/access.log ``` 此方法允许用户动态观察新产生的日志条目[^1]。 - 使用 `cat` 或 `less` 查看整个日志文件内容: ```bash cat /var/log/apache2/access.log ``` 或者分页查看: ```bash less /var/log/apache2/access.log ``` #### 2. **解析和统计 Apache 访问日志** ##### (1) **使用 Python 脚本进行简单统计** 可以利用正则表达式提取特定字段并进行统计。例如,统计 IP 地址或浏览器类型的频率[^4]。 示例代码如下: ```python #!/usr/bin/env python3 import re from collections import Counter def count_pattern(filename, pattern): counter = Counter() regex = re.compile(pattern) with open(filename) as file_obj: for line in file_obj: match = regex.search(line) if match: counter.update([match.group()]) return counter if __name__ == "__main__": filename = "/var/log/apache2/access.log" ip_pattern = r"^(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})" browser_pattern = r"(Firefox|MSIE|Chrome)" ip_counts = count_pattern(filename, ip_pattern) print("IP Address Counts:", ip_counts) browser_counts = count_pattern(filename, browser_pattern) print("Browser Type Counts:", browser_counts) ``` ##### (2) **基于 Lambda 架构的分布式日志分析** Lambda 架构是一种用于大数据处理的设计模式,结合批处理和流处理的优点。对于大规模 Apache 日志分析,可采用以下技术栈[^3]: - **Kafka 和 Spark Streaming 实现实时分析** Kafka 可作为消息队列接收来自 Apache 服务器的日志数据;Spark Streaming 则负责对流入的数据进行实时计算。 - **Hadoop 和 Spark SQL 进行离线分析** 将历史日志存储到 HDFS 中,并通过 Spark SQL 执行复杂查询以挖掘有价值的信息。 - **MySQL 存储分析结果** 结果数据写入 MySQL 数据库以便后续检索。 - **Flask 提供 Web UI 展示** Flask 是轻量级框架,可用于构建前端界面展示分析结果。 #### 3. **工具支持** 除了手动编写脚本外,还可以借助现成工具简化流程。例如 GoAccess 是一款开源软件,能够快速生成直观的 HTML 报告[^2]。 安装命令(Ubuntu 系统为例): ```bash sudo apt-get install goaccess goaccess /var/log/apache2/access.log --log-format=COMBINED -o report.html ``` 以上方式不仅提高了效率还增强了用户体验。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值