大数据采集与处理:Nutch、Solr、Gora、HBase及MapReduce实践
1. 数据采集:Nutch与HBase配置
在使用Nutch进行数据采集前,需确保HBase正常运行并将数据存储到HDFS。可使用Hadoop文件系统的 ls 命令进行检查:
[hadoop@hc1nn logs]$ hadoop dfs -ls /hbase
示例输出如下:
Found 5 items
drwxr-xr-x - hadoop supergroup 0 2014-04-12 19:55 /hbase/-ROOT-
drwxr-xr-x - hadoop supergroup 0 2014-04-12 19:55 /hbase/.META.
drwxr-xr-x - hadoop supergroup 0 2014-04-12 19:57 /hbase/.logs
drwxr-xr-x - hadoop supergroup 0 2014-04-12 19:57 /hbase/.oldlogs
-rw-r--r-- 3 hadoop supergroup 3 2014-04-12 19:55 /hbase/hbase.version
2. Gora配置
Gora可让Nutch选择数据存储位置,支持多种数据存储。以下是配置G
超级会员免费看
订阅专栏 解锁全文
59

被折叠的 条评论
为什么被折叠?



