大数据
xiaocxyczh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多线程爬虫去重问题
最近无聊做了一个小爬虫项目,用的是WebCollector框架,比较好上手。但爬取数据后发现有许多重复的,测试了一下是多线程的问题,一开始想到的是在插入MongoDB前判断是否有相同数据存在,但可想而知多线程出现的是问题解决不了的而且效率也很低,然后想到了用CurrentHashMap去重,搞定 首先新建全局属性:public static ConcurrentHashMap<String,Int原创 2017-07-26 18:33:41 · 1596 阅读 · 0 评论 -
windows版influxDB安装与配置
最近实习的公司在做一个工业监控系统,虽然数据采集点并不算多但是数据量积累下来也非常大,使用mysql数据库进行数据存储和查询时很慢,所以让我调研一下时序数据库,通过调研和了解时序数据库在海量数据的读取和写出都比关系型数据库和NoSql快很多,有人做过mysql和influxDB对比,存储1000万条数据mysql要7分多钟,influxDB只需2分多钟,从1000万条数据读10000条所需数据mys原创 2017-11-30 23:14:12 · 39039 阅读 · 3 评论 -
三台跨机群学生机云服务器搭建Hadoop分布式的性能测试
本文章没有搭建教学,只是关于搭建完成后的性能测试以及提供一些自己的建议。由于学习本人租了三台不同公司学生机服务器搭建Hadoop分布式,版本为2.9.1,本以为可以放到上面跑一跑项目会比本机开docker搭建的分布式要快,但是没想到碰到了各种问题。在配置了一个master两个slave,hdfs副本数设置为2的情况下,测试文件大小为400M左右,做一个简单的wordcount分析,文件从m...原创 2018-10-12 15:29:57 · 877 阅读 · 4 评论 -
Flume+Kafka+SparkStreaming+Redis+Mysql做的实时日志分析ip访问次数
新手学习,如有错误请指正,感谢!1.启动zookeeper和kafka,并建立一个topic为test-fkss,为了方便观察我是通过kafka-manager添加2.配置Flume并启动,监听文件为/home/czh/docker-public-file/testflume.log,发送给kafkaa1.sources = r1a1.sinks = k1a1.channel...原创 2018-10-14 21:50:04 · 1656 阅读 · 1 评论
分享