项目需要对企业的业务访问流量进行大数据分析,由于使用Kafka+flume采集数据,接收到的数据是单条的所以需要组装切割再筛选所需要的数据。
正则初级入门
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表达式是繁琐的,但它是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真阅读本教程,加上应用的时候进行一定的参考,掌握正则表达式不是问题。
推荐初入门的朋友看看:https://www.runoob.com/regexp/regexp-tutorial.html
TP5日志动态分割
通过观察TP5的日志是很有规律的,每次请求的结尾都有横线分隔,所以可以一个分割线接收完整的日志片段,如:
--------------------------------------------------------------- #分隔线
[ 2019-05-27T10:56:02+08:00 ] 192.168.2.243 GET /Ticket2018/index/index/index.html
[ sql ] [ DB ] CONNECT:[ UseTime:0.011552s ] mysql:host=localhost;port=3306;dbname=tptick;charset=utf8
[ sql ] [ SQL ] SHOW COLUMNS FROM `tp_admin_adsimg` [ RunTime:0.047415s ]
[ sql ] [ SQL ] SELECT `savepath`,`savename` FROM `tp_admin_adsimg` WHERE `sta` = 0 ORDER BY ctime des