
Hadoop学习
codereason
机器学习从业者,对大数据、搜索引擎、推荐系统、爬虫感兴趣,常用 Java/Python/Scala ,爱好:掌机、漫画、模拟器,欢迎加wx交流hibikekoinouta
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop学习笔记01-basics
Hadoop 是一个分布式计算的基础架构,用户在不需要了解底层细节的情况下,开发分布式的应用。Hadoop 最重要的是实现了一个分布式的文件系统,这样的文件系统可以架构在价格低廉的集群之上。Hadoop 另外一个重要内容就是MapReduce,一种分布式任务处理的架构。这两个部分构成了Hadoop的基石,Hadoop在创新在于从以前的以应用为中心,转变为以数据为中心。以前是应用获取数据进行处理...转载 2018-09-12 11:27:29 · 160 阅读 · 0 评论 -
Hadoop使用时的一些常见问题
Hadoop使用时的一些常见问题看日志,根据一些报错:datanode启动之后,jps不显示datanode进程:https://stackoverflow.com/questions/22316187/datanode-not-starts-correctlyjava.io.IOException: Incompatible clusterIDs in /home/hadoop/dfs/d...原创 2018-10-09 22:15:14 · 149 阅读 · 0 评论 -
Hadoop学习笔记:fsimage、editlogs、checkpoint和辅助namenode
转自http://blog.cloudera.com/blog/2014/03/a-guide-to-checkpointing-in-hadoop/A Guide to Checkpointing in HadoopUnderstanding how checkpointing works in HDFS can make the difference between a healthy c...转载 2018-10-19 20:58:05 · 644 阅读 · 0 评论 -
Hadoop学习笔记03:序列化
什么是序列化呢?序列化就是讲一个对象编码成一个字节流;相反,从字节流中重新构建对象就叫做反序列化。序列化主要有三种用途:●持久化:将内存中的对象经序列化后保存到磁盘上;●作为通信的数据传输格式:将一个机器上的内存中的对象经序列化后传输到其他机器上,或在相同机器上的不同进程之间的数据通信;●作为copy、clone机制:将对象序列化到内存中,然后通过反序列化,可以得到一个已存在的对象的cop...原创 2018-11-11 22:17:09 · 119 阅读 · 0 评论 -
大数据与机器学习博客推荐
自己很多时候学习大数据组件google问题,看到了讲解精彩的博客往往是浏览器加个书签就完事了,实际上很少会回过头来看,这样不好。我自己有时候还会把那个文章或解答的网页打印成PDF保存,但是像csdn这种毒瘤网站最近打印成PDF的样式非常糟糕,遂下定决心不再看csdn上的文章了。为此决定把个人常看的一些优秀数据科学社区和博客的地址放在这里(争取多看除了SOF和官方文档之外,其实还有一些专注于数据科...原创 2018-11-11 22:17:41 · 210 阅读 · 0 评论 -
Hadoop学习笔记04:shuffle
一个讲shuffle的教程,很详细https://www.youtube.com/watch?v=F4Zc4S-8n0w原创 2018-11-11 22:18:06 · 159 阅读 · 0 评论