
大数据/云计算
Hallin.yao
这个作者很懒,什么都没留下…
展开
-
Hadoop hdfs上传文件错误
转载 https://www.cnblogs.com/likui360/p/6558749.htmlHadoop出现错误:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable,解决方案安装Had...转载 2018-07-02 22:21:27 · 1586 阅读 · 0 评论 -
mapreduce原理
转自http://p-x1984.iteye.com/blog/702486Map-Reduce框架的运作完全基于<key,value>对,即数据的输入是一批<key,value>对,生成的结果也是一批<key,value>对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable...转载 2018-06-20 15:58:11 · 3840 阅读 · 0 评论 -
基于Hadoop 的分布式网络爬虫技术学习笔记
http://blog.youkuaiyun.com/zolalad/article/details/16344661基于Hadoop 的分布式网络爬虫技术学习笔记 一、网络爬虫原理Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中...转载 2018-06-20 13:39:55 · 4370 阅读 · 0 评论 -
初识云-云服务器和虚拟主机
转自 https://yq.aliyun.com/articles/226730转载 2018-06-20 10:39:11 · 366 阅读 · 0 评论 -
大数据java基础--main
https://www.cnblogs.com/yaqi007/articles/2129189.htmlmain 方法可以省略 public ? static ? 返回值可以是 int ? 形参可以省略吗? 可以在main 中调用 main 方法吗? 首先Java规定了main()方法必须是公共的,以便于外部程序对主方法的访问,因为程序都是从main()方法起始的,并且main()方法也...转载 2018-06-22 10:59:52 · 197 阅读 · 0 评论 -
Ubuntu下 hadoop的安装与配置
转载自:https://www.cnblogs.com/87hbteo/p/7606012.html一、准备1.1创建hadoop用户$ sudo useradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell$ sudo passwd hadoop #为hadoop用户设置密码,之后需要连续输入...转载 2018-06-21 23:32:27 · 8974 阅读 · 2 评论 -
大数据工程师成长之路
则是在一起自学吧看到的“大数据工程师成长之路”系列课程,https://www.17zixueba.com/forum.php?mod=viewthread&tid=459学习路线可以参考该课程体系学习思路指引: 如果有编程背景这是最好的了,会节省很多学习时间,更容易理解。因为大数据环境比较复杂,并不像学习编程软件一样,机器安装一下,跟老师敲几行代码就可以了,但大数据可就要麻烦多...转载 2018-06-21 16:32:32 · 3047 阅读 · 1 评论 -
用python写MapReduce函数——以WordCount为例
转载自:https://www.cnblogs.com/kaituorensheng/p/3826114.html阅读目录1. Python MapReduce 代码2. 在Hadoop上运行python代码3. 利用python的迭代器和生成器优化Mapper 和 Reducer代码4. 参考 尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python...转载 2018-06-21 09:29:22 · 572 阅读 · 0 评论 -
搭建完全分布式的hadoop
转载自:https://www.cnblogs.com/laov/p/3421479.html用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。 1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程...转载 2018-06-20 19:53:00 · 261 阅读 · 0 评论 -
Hadoop和Sparkd的区别与联系
http://www.techweb.com.cn/network/system/2016-03-09/2292838.shtml对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。比如说,Spark没有文件管理功能,因而必须...转载 2018-07-07 12:15:38 · 1548 阅读 · 0 评论