
大数据
zhuwentaolove
Java学习者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据下的信息安全
在人们享受互联网带来的便捷和高效时,有一批人将其黑手伸向了 领域,他们利用某些网站的技术和业务漏洞进行作弊,从而满足自 己的灰色利益需求。恶意传播色情、诈骗、谣言、暴力等不正当信息,给互联网环境造成了很大的威胁。 随着作弊场景和手法的不断变化,各个维度的安全技术也在不断升级保护正常用户免受黑色利益链条的侵害,其中包括物理安全、网络安 全、应用安全、数据安...原创 2020-02-17 16:57:31 · 858 阅读 · 0 评论 -
高吞吐的kafka如何保证消息消费的有序性
producer端发送的message必须指定是发送到哪个topic,但是不需要指定topic下的哪个partition,因为kafka会把收到的message进行load balance,均匀的分布在这个topic下的不同的partition上( hash(message) % [broker数量] )。 同组有多个消费者的时候:kafka会按照顺序分配partitions,eg如果有...原创 2020-01-21 11:07:50 · 1311 阅读 · 0 评论 -
hdfs随机读取,seek源码
The default HDFS block size is 128 MB. So you cannot read one line here, one line there. You always read and write 128 MB blocks. This is fine when you want to process the whole file. But it makes HDF...原创 2019-12-06 09:52:47 · 867 阅读 · 0 评论 -
kafka多消费者处理
它不能像AMQ那样可以多个BET作为consumer去互斥的(for update悲观锁)并发处理message,这是因为多个BET去消费一个Queue中的数据的时候,由于要保证不能多个线程拿同一条message,所以就需要行级别悲观所(for update),这就导致了consume的性能下降,吞吐量不够。而kafka为了保证吞吐量,只允许同一个consumer group下的一个consume...原创 2019-11-28 17:00:33 · 1229 阅读 · 0 评论 -
InputFormat,OutputFormat,RecordReader
InputFormat 提供了两个方法:getSplits实现分片规则,createRecordReader读取数据规则K,V public abstract List<InputSplit> getSplits(JobContext context ) throws IOException, Interr...原创 2019-11-27 11:23:31 · 139 阅读 · 0 评论 -
hdfs FastCopy源码 copyBlock
1从srcnamenode获取到block的信息,2去dest addblock信息,3判断block进行拷贝,拷贝判断是不是同一个datanode,如果是进行硬链接拷贝。否进行复制数据 LocatedBlock存放文件的block信息, 通过DatanodeInfo[] getLocations() 获取包含了文件所在的DatanodeInfo DatanodeInfo中包...原创 2019-11-15 10:18:04 · 512 阅读 · 0 评论 -
hdfs fssystem线程安全问题及分布式客户端应用
fssystem的实现类DistributedFileSystem 1根据url(建立链接)创建fssystem的时候会先在cache中查找,如果没有就create,close的时候会关闭并清空缓存 2缓存的key是根据conf和url来构建的 3.1读文件(读取了一个block后,在调用getBlockLocations获取下一个数据的存储位置,如果数据跨block会不会有性能...原创 2019-10-20 17:48:42 · 698 阅读 · 0 评论 -
YARN应用开发流程
https://my.oschina.net/u/1434348/blog/193374原创 2019-10-16 09:47:19 · 207 阅读 · 0 评论