数据挖掘学习笔记(4)

本文介绍了网站日志分析中W3C扩展日志文件格式的常用属性及其含义,并列举了常见的服务器错误代码,适合希望深入了解网站日志分析的技术人员阅读。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网站日志分析相关知识:

W3C扩展日志文件格式常用属性说明表
字段名描述
客户端IP地址访问服务器的任何客户端的IP地址
用户名称访问服务器的用户名称
服务名在客户机上运行的Internet服务
服务器名称生成日志项的服务器名称
服务器IP生成日志项的服务器IP地址
服务器端口商户端连接到的端口号
方法客户端试图执行的操作(例如,GET命令)
ServiceStatus简单邮件传输协议(SMTP)回复代码
URI查询客户端试图执行的查询(如果有)。在日志中记录了客户搜索以进行匹配的一个或多个搜索字符串
协议状态以HTTP术语表示的操作的状态
发送的字节数服务器发送的字节数
接收的字节数服务器接收的字节数
所用时间操作所需的时间长短
协议版本客户端使用的协议(HTTP, FTP)版本。对于HTTP,是HTTP1.0或HTTP1.1
主机计算机名
用户代理在客户端使用的浏览器
Cookie发送或接收的Cookie的内容(如果有)
引用站点将用记指向当前站点的站点


常用服务器错误代码:

200——OK

206——Partial Content,部分内容

301——Moved Permanently,用户所访问的某个页面url已经做了301重定向(永久性)处理

302——Found,内容被暂时重定向,已经找到

304——Not Modified,未修改,采用缓存(cache)拷贝

401——Unauthorised(password required),需要密码

403——Forbidden,不可访问

404——Not Found,没有内容

408——Request Timeout,请求超时

500——Server Error,通常是服务器发生错误,比如在维护或者下线了


以上几篇数据挖掘学习笔记都摘自于谭磊的《大数据挖掘》中,由电子工业出版社出版,该书以最通俗易懂的介绍性语言来介绍数据挖掘相关概念,原理,算法以及在实际生活中的应用,所讲知识全面易懂,思路清晰,从头读到尾一点不觉得乏味,个人觉得是一本相当不错的书,极力推荐各位有兴趣的朋友去看看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值