如何使用 Python 分析 web 访问日志?从零基础到精通,收藏这篇就够了!

部署运行你感兴趣的模型镜像

本次公开课由我们 Python 实战班第 18 期的课程教师 KK 为大家做分享。

主题:如何使用 Python 分析 Web 访问日志

内容

  • Python 基础

  • 字符串、字典、文件、时间

  • Web 访问日志

  • 实战

  • 提问

主讲师:KK

多语言混搭工程师,热爱开源技术,喜欢GET新技能,5年 PHP、Python 项目开发经验,带领团队完成多个中、小型项目开发,对安全、云等多个领域富有浓厚兴趣,擅长于 WEB 安全开发、性能优化、分布式应用开发&设计等多方面,做事认真负责,乐于分享技能,现任 51Reboot.com Python 实战班讲师

任何语言都有使用场景,只有合适和不合适,没有好坏。语言是工具,用来描述让计算机如何工作,想法(思路&算法)是基础,也是重点。

字符串

  • 像姓名、一句话描述这样的文

  • 使用单引号、双引号、三个单引号或三个双引号引起来的一些字符

字符串有哪些函数

  • split分隔字符串为list

  • format 格式化字符串

字典定义

  • 定义

  • 使用大括号包含

  • 每个元素为key:value的格式

  • 元素之间使用逗号分隔

练习

一、统计 list 中每个元素出现的次数

languages = [‘python’, ‘java’, ‘python’, ‘c’, ‘c++’, ‘go’, ‘c#’, ‘c++’, ‘lisp’, ‘c’, ‘javascript’, ‘java’, ‘python’, ‘matlab’, ‘python’, ‘go’, ‘java’]

提示:

统计结果为 element:count 的形式,统计结果采用 dict 从左到右依次遍历 list 中元素,判断是否在 dict 中,如果不在则将 element 存入 dict 并设置 count 为 1,否则将 dict中element 对应的 count 加 1 后再存储到dict中。

二、统计文章中每个英文字母出现的次数

  • article = ‘I was not delivered unto this world in defeat, nor does failure course in my veins. I am not a sheep waiting to be prodded by my shepherd. I am a lion and I refuse to talk, to walk, to sleep with the sheep. I will hear not those who weep and complain, for their disease is contagious. Let them join the sheep. The slaughterhouse of failure is not my destiny.’

  • 提示:判断是否为英文单词

  • if (element > ‘a’ and element < ‘z’) or (element > ‘A’ and element < ‘Z’)

字典的 Key

  • Key 必须为不可变数据类型

  • 数字

  • 整数

  • 浮点数

  • 字符串

  • 布尔类型

  • 列表 X

  • 元组

  • 子元素必须也不可变(“a”, “b”)

  • (“a”, ["b“]) X

  • 字典 X

字典有哪些函数

文件

自己在电脑上打开 word 文件的操作顺序

  • 在计算机盘符中找到对应的文件

  • 鼠标双击打开文件(选择查阅的工具)

  • 查阅文件内容/编辑文件内容

  • 如果有编辑文件内容保存文件

  • 关闭文件

文件操作

  • 打开文件

  • fhandler = open(path, mode, …)

  • path 为文件路径

  • mode 为打开文件方式及文件类型

mode打开文件方式
r读(默认)
w
x创建并写
a追加
r+读写
w+写读
x+创建并写读
a+追加读
  • 关闭文件

fhandler.close()

mode文件类型
t文本(默认)
b二进制
  • 遍历文件内容

时间

Web 访问日志

  • Web 访问日志是 Web 服务器记录的网站被访问的过程日志

  • 日志属性

  • 什么时候

  • 什么人

  • 通过什么工具

  • 以什么方式

  • 访问了什么资源
    * 结果是什么(状态/返回数据大小)

Web 访问日志日志格式

  • 通用日志格式

    127.0.0.1 - - [14/May/2017:12:45:29 +0800] “GET /index.html HTTP/1.1” 200 4286

    远程 - - 主机 IP 请求时间 时区 方法 资源 协议 状态码 发送字节

  • 组合日志格式

    127.0.0.1 - - [14/May/2017:12:51:13 +0800] “GET /index.html HTTP/1.1” 200 4286 “http://127.0.0.1/” "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36“

    远程主机 IP - - 请求时间 时区 方法 资源 协议 状态码 发送字节 referer 字符 浏览器信息

Web访问日志日志示例

实战

  • 统计以下数据

  • 需要根据IP获取地理位置

  • 每天的日志中每行流量之和、总的流量之和(每天流量之和)

  • 每种状态码出现的次数

  • 每天的不重复的IP的数量、总的不重复的IP数量(每天不重复的IP数量 之和???)

  • 每天的日志行数、日志的总行数(每天的日志行数之和)

  • 统计每天的点击量、总点击数量

  • 统计每天的浏览者数量、总浏览者数量

  • 统计总状态码分布

  • 统计每天流量大小、总的流量大小

  • 统计访问地域分布及访问次数 TOP20

运行

分析

  • 按天统计

  • 每天日志行数

  • 每天浏览每个 IP 的访问次数

  • 每天访问者数量 = 每天出现 IP 组成集合的数量

  • 每天状态码出现次数

  • 每天流量总数

  • 总统计

  • 总日志行数 = 每天日志行数之和

  • 总访问者数量 = 所有出现 IP 组成的集合数量

  • 地域分布

  • 所有出现 IP 的访问次数 排序取 TOP20

  • 根据 IP 查找地理位置

代码

统计每天信息

统计总数据

统计区域数据

打印结果

还可以做哪些?

  • 统计每天每个 url 访问的次数?

  • 最近 24 小时访问/流量趋势图(每 5-10 分钟粒度)

  • 每天浏览器分布图

  • 每天访问文档分布图

  • 每天 js、css、图片等静态文档流量统计

  • ……

  • web 饼状图、曲线图、柱状图、地图

  • ……

  • 通过机器学习监督学习方法对访问进行攻击检测

网络安全学习路线&学习资源

网络安全的知识多而杂,怎么科学合理安排?

下面给大家总结了一套适用于网安零基础的学习路线,应届生和转行人员都适用,学完保底6k!就算你底子差,如果能趁着网安良好的发展势头不断学习,日后跳槽大厂、拿到百万年薪也不是不可能!

初级网工

1、网络安全理论知识(2天)

①了解行业相关背景,前景,确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。(非常重要)

2、渗透测试基础(一周)

①渗透测试的流程、分类、标准
②信息收集技术:主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理,利用方法、工具(MSF)、绕过IDS和反病毒侦察
④主机攻防演练:MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础(一周)

①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全(系统入侵排查/系统加固基础)

4、计算机网络基础(一周)

①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析(HTTP、TCP/IP、ARP等)
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御:主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作(2天)

①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透(1周)

①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具:Nmap、BurpSuite、SQLMap、其他(菜刀、漏扫等)

恭喜你,如果学到这里,你基本可以从事一份网络安全相关的工作,比如渗透测试、Web 渗透、安全服务、安全分析等岗位;如果等保模块学的好,还可以从事等保工程师。薪资区间6k-15k

到此为止,大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗?

“脚本小子”成长进阶资源领取

7、脚本编程(初级/中级/高级)

在网络安全领域。是否具备编程能力是“脚本小子”和真正黑客的本质区别。在实际的渗透测试过程中,面对复杂多变的网络环境,当常用工具不能满足实际需求的时候,往往需要对现有工具进行扩展,或者编写符合我们要求的工具、自动化脚本,这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中,想要高效地使用自制的脚本工具来实现各种目的,更是需要拥有编程能力.

零基础入门,建议选择脚本语言Python/PHP/Go/Java中的一种,对常用库进行编程学习; 搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP, IDE强烈推荐Sublime; ·Python编程学习,学习内容包含:语法、正则、文件、 网络、多线程等常用库,推荐《Python核心编程》,不要看完; ·用Python编写漏洞的exp,然后写一个简单的网络爬虫; ·PHP基本语法学习并书写一个简单的博客系统; 熟悉MVC架构,并试着学习一个PHP框架或者Python框架 (可选); ·了解Bootstrap的布局或者CSS。

8、超级网工

这部分内容对零基础的同学来说还比较遥远,就不展开细说了,贴一个大概的路线。感兴趣的童鞋可以研究一下,不懂得地方可以【点这里】加我耗油,跟我学习交流一下。

网络安全工程师企业级学习路线

如图片过大被平台压缩导致看不清的话,可以【点这里】加我耗油发给你,大家也可以一起学习交流一下。

一些我自己买的、其他平台白嫖不到的视频教程:

需要的话可以扫描下方卡片加我耗油发给你(都是无偿分享的),大家也可以一起学习交流一下。

结语

网络安全产业就像一个江湖,各色人等聚集。相对于欧美国家基础扎实(懂加密、会防护、能挖洞、擅工程)的众多名门正派,我国的人才更多的属于旁门左道(很多白帽子可能会不服气),因此在未来的人才培养和建设上,需要调整结构,鼓励更多的人去做“正向”的、结合“业务”与“数据”、“自动化”的“体系、建设”,才能解人才之渴,真正的为社会全面互联网化提供安全保障。

特别声明:

此教程为纯技术分享!本书的目的决不是为那些怀有不良动机的人提供及技术支持!也不承担因为技术被滥用所产生的连带责任!本书的目的在于最大限度地唤醒大家对网络安全的重视,并采取相应的安全措施,从而减少由网络安全而带来的经济损失!!!

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员一粟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值