
大数据
文章平均质量分 54
zhangyun75
这个作者很懒,什么都没留下…
展开
-
1、(topK问题)海量日志数据,提取出某日访问百度次数最多的10个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文件中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。#include &...原创 2018-05-11 08:22:02 · 2229 阅读 · 0 评论 -
Linux分析apache日志获取最多访问的前10个IP
原文地址:http://xuqq999.blog.51cto.com/3357083/774714 apache日志分析可以获得很多有用的信息,现在来试试最基本的,获取最多访问的前10个IP地址及访问次数。既然是统计,那么awk是必不可少的,好用而高效。命令如下:awk '{a[$1] += 1;} END {for (i in a) printf("%d %s\n", a[i], i);}' 日...转载 2018-05-11 08:24:59 · 597 阅读 · 0 评论 -
关于Elasticsearch6.2.4遇到的问题
环境:Ubuntu14.04 32bit安装elasticsearch 6.2.4后新建索引时:curl -X PUT 'localhost:9200/accounts' -d '{ "mappings": { "person": { "properties": { "user": { "type": "text",原创 2018-05-25 17:19:12 · 1902 阅读 · 0 评论 -
面试必备:什么是一致性Hash算法?
最近有小伙伴跑过来问什么是Hash一致性算法,说面试的时候被问到了,因为不了解,所以就没有回答上,问我有没有相应的学习资料推荐,当时上班,没时间回复,晚上回去了就忘了这件事,今天突然看到这个,加班为大家整理一下什么是Hash一致性算法,希望对大家有帮助!文末送书,长按抽奖助手小程序即可参与,祝君好运!经常阅读我文章的小伙伴应该都很熟悉我写文章的套路,上来就是先要问一句为什么?也就是为什么要有Has...转载 2018-05-23 09:52:13 · 664 阅读 · 0 评论 -
select函数,poll函数,epoll函数
IO多路复用之select总结1. 基本概念2. select函数3、测试程序IO多路复用之poll 总结poll函数的事件标志符值TCP三次握手,四次挥手讲的比较好的socket中的函数listen解释IO多路复用之epoll总结1、基本知识2、epoll接口3、工作模式4、测试程序对stdin,stdout 和STDOUT_FILENO,STDIN_FILENO的学习IO多路复用之select...转载 2018-06-05 11:31:29 · 815 阅读 · 0 评论 -
select和epoll 原理概述&优缺点比较
这个问题在面试跟网络编程相关的岗位的时候基本都会被问到,刚刚看到一个很好的比喻:就像收本子的班长,以前得一个个学生地去问有没有本子,如果没有,它还得等待一段时间而后又继续问,现在好了,只走一次,如果没有本子,班长就告诉大家去那里交本子,当班长想起要取本子,就去那里看看或者等待一定时间后离开,有本子到了就叫醒他,然后取走。也许在细节方面不是特别恰当,但是总的来说,比较形象地说出了select和epo...转载 2018-06-05 14:18:12 · 759 阅读 · 0 评论 -
redis集群重新分片(reshard)故障处理(基于redis-4.0.9版本)
按照教程中创建集群方式创建集群:./src/redis-trib.rb create --replicas 1 192.168.2.106:8001 192.168.2.106:8002 192.168.2.106:8003 192.168.2.106:8004 192.168.2.106:8005 192.168.2.106:8006现在需要将192.168.2.106:8002节点中的slot...原创 2018-06-19 16:54:56 · 4337 阅读 · 0 评论 -
HTTP 2.0与HTTP 1.1区别
1、什么是HTTP 2.0HTTP/2(超文本传输协议第2版,最初命名为HTTP 2.0),是HTTP协议的的第二个主要版本,使用于万维网。HTTP/2是HTTP协议自1999年HTTP 1.1发布后的首个更新,主要基于SPDY协议(是Google开发的基于TCP的应用层协议,用以最小化网络延迟,提升网络速度,优化用户的网络使用体验)。 2、与HTTP 1.1相比,主要区别包括HTTP/2采用二进...转载 2018-07-03 10:42:27 · 1273 阅读 · 0 评论 -
一次线上问题排查所引发的思考
前言之前或多或少分享过一些内存模型、对象创建之类的内容,其实大部分人看完都是懵懵懂懂,也不知道这些的实际意义。直到有一天你会碰到线上奇奇怪怪的问题,如: 线程执行一个任务迟迟没有返回,应用假死。 接口响应缓慢,甚至请求超时。 CPU 高负载运行。 这类问题并不像一个空指针、数组越界这样明显好查,这时就需要刚才提到的内存模型、对象创建、线程等相关知识结合在一起来...转载 2018-07-19 18:57:22 · 286 阅读 · 0 评论