
26Python日志分析(二)
48N6E
这个作者很懒,什么都没留下…
展开
-
2019/11/05 04-useragent分析
现在该做真正的分析了原创 2020-09-29 15:14:32 · 369 阅读 · 0 评论 -
2019/11/05 03-代码合并和分析
最早讨论是数据的提取,数据的生产者,当前的日志,一半是apahce,tomcat,nginx产生的,一般可以用来预防爬虫,恶意攻击,可以看到里面的日志信息,ip,请求,user agent可以推算别人用的什么浏览器 比如面试写,做了一些日志分析,问数据怎么来的,httpd,tomcat,不同服务器来的,数据放在一个分布式系统上(也可以是大的磁盘阵列里) 这样采集加存储做完了,就需要把文本一行行处...原创 2020-09-29 15:14:25 · 121 阅读 · 0 评论 -
2019/11/04 02-Queue使用和分发器实现
消息中间件也称消息队列,本质上是排个队,数据还是先进先出,消息队列整体完成功能,1.解耦,2.缓冲(最重要的两点,当然还有其他的),生产中遇到的问题就拿这个解决就行 python中的消息队列,queue模块,是解决线程问题的,如果是服务,跨进程的跨网络的,就需要用第三方的 queue必须掌握 多进程、 需要用多线程版本的,queue模块实现了生产者消费者使用的队列 lifequeue,是后进先...原创 2020-09-29 15:14:16 · 321 阅读 · 0 评论 -
2019/11/04 01-生产者消费者模型
开始写项目的时候,代码不一定效率最高但是也不算太差,差不多赶上进度先 前面完成了数据的加载,再把数据拿过来一行行处理掉,处理掉之后,把数据提取出来,提取的字段可以自定义(原始数据提取的速度全部提取,后面哪个程序要就给一份,避免漏掉字段) 所以刚开始不要把数据过滤掉,把不合格的某一行干掉,就不要了,但是列,就让那些程序自己看要哪一列 数据提取出来,暂时是保存的 大量的文件可以交给好几个handler...原创 2020-09-29 15:14:08 · 107 阅读 · 0 评论