
分布式计算
multiangle
这个作者很懒,什么都没留下…
展开
-
使用hadoop读写mysql
与mongodb相比,hadoop提供了内置的输入输出库DBInputFormat和DBOutputFormat,但是依然要使用JDBC驱动包com.mysql.jdbc.Driver。没有的可以去http://www.mysql.com/products/connector/ 下载。下下来后,只要把该包放在项目路径下即可,切莫在文件中import该包中内容,只要import java.sql.*原创 2016-11-17 18:04:30 · 3161 阅读 · 0 评论 -
使用hadoop读写mongodb
由于我之前爬取的微博数据都放在mongodb内,所以使用hadoop来处理mongodb内的数据是很自然的一种选择。 想要用hadoop读写mongodb内的数据,首先需要mongo-hadoop包。我是使用maven自动下载的,包名:org.mongodb.mongo-hadoop:mongo-hadoop-core 或者你也可以去http://search.maven.org/ 或者其他网站原创 2016-11-07 11:58:49 · 4560 阅读 · 2 评论 -
在idea上运行hadoop程序
本文的内容是如何让idea读取hdfs中的文件。 在开始前,我默认各位看官已经装好了hadoop。如果还没有安装hadoop,可以看这篇文章:linux下命令行安装hadoop2.7.2过程首先要将文本文件从本地移到hdfs中$hadoop fs -mkdir /tmp$hadoop fs -copyFromLocal /home/multiangle/download/280.txt /tmp原创 2016-11-03 15:17:42 · 5466 阅读 · 0 评论 -
linux下命令行安装hadoop2.7.2过程
1.创建hadoop用户组sudo addgroup hadoop2.创建hadoop用户sudo adduser -ingroup hadoop hadoop回车后会提示输入新的UNIX密码,这是新建用户hadoop的密码,输入回车即可。即密码不能为空。 最后确认信息是否正确,如果没问题,输入 Y3、为hadoop用户添加权限sudo gedit /etc/sudoers如果没有图形界面,可以原创 2016-03-04 18:04:02 · 3712 阅读 · 0 评论 -
Hadoop生态圈简介
本文转自知乎大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。 传统的文件系统是单机的,不能横跨转载 2016-02-20 15:21:36 · 1248 阅读 · 0 评论