
25Python日志分析(一)
48N6E
这个作者很懒,什么都没留下…
展开
-
2019/11/04 04-时间窗口函数实现
产生的日志是有时间的,每隔多少时间去处理一次数据,就是滑动窗口日志都是按照时间顺序产生的,这时候用窗口来理解就是一种事窗口的宽度,(有个窗户,你现在能看到的就是现在的数据,每隔多长时间卡一下)窗口宽度是宽度,移动过多少时间,就是间隔多少红色窗口,随着时间流逝向右跑,每滑动几秒就需要停下来,对框起来的数据进行一次计算,如果窗口宽度是大于间隔时间的话,时间开始,框子这里面数据就是要计算的数...原创 2020-09-29 15:13:59 · 365 阅读 · 0 评论 -
2019/11/03 03-正则数据提取和数据载入
大数据采集工具往往是java,如果是简单的日志处理就可以用python,分析可以用spark,r语言,python,java都可以,数据挖掘用python比较多,比如AI文本最好的处理方案就是一行行去处理,字符串处理,还有一种是用正则表达式把每一行关心的数据提取出来空格分隔有一些弊端,可以用\x01这些,不可见字符,做列分隔datetime时间两个重要的strftime,strp...原创 2020-09-30 15:11:01 · 166 阅读 · 0 评论 -
2019/11/01 02-日志数据提取
输出到日志文件中的日志,每一行都应该是有用的一般日志都能为我们所用,直到服务器忙不忙,健康状态,根据ip地址,分析用户分布,尤其是双11,商家最喜欢把用户画像卖给你同样的数据,不同的人来做,效果不同,数据分析就要和你的建模相关,其实就是大数据相关,一切为了销售来做日志数据分布在不同发机器上就需要采集,关心的程序日志就要集中管理,大数据用的比较多的flume,elk的logstash日...原创 2020-09-30 15:10:51 · 765 阅读 · 0 评论 -
2019/10/31 01-正则表达式习题讲解
re这个库,是一种正在表达式的实现,可以用提供的方法,对字符串进行匹配,替换常用的方法是match,search,fullmatch,findall(快速提取你想要的数据,立即返回,字符串),finditer(返回一个个match对象,可以提取分组)match,search,fullmatch会返回一个match对象finditer返回一个match,有了match就可以提取分组分组有两...原创 2020-09-30 15:10:42 · 306 阅读 · 0 评论