
hadoop
文章平均质量分 92
Jiede1
专注与数据挖掘和人工智能
Github: https://github.com/Jiede1
展开
-
hadoop+intellij+maven实现wordcount程序
前言:由于工作原因,第一次接触maven和hadoop,所以在学习的过程中,看了很多博客,踩了很多坑,也总结了一些经验,现在大致记录如下。有需要的朋友请自取。1.什么是maven 具体可以这两篇博客。 maven入门http://www.cnblogs.com/now-fighting/p/4857625.html maven体系结构https://www.cnblogs.com/now-fi原创 2017-12-21 14:34:52 · 3866 阅读 · 0 评论 -
使用python的hdfs包操作HDFS
项目需要利用python访问hdfs,查到可以利用hdfs包实现这一点,总结了下使用方法。1.安装 我在Linux环境下安装pip install hdfs2.连接hdfsfrom hdfs.client import Client# 50070: NameNode web管理端口client = Client("http://localhost:50070") ...转载 2018-04-05 21:10:58 · 11070 阅读 · 2 评论 -
【干货】快速搭建CDH的yum本地源的详细过程
在做项目的过程中,项目环境上不了网,但利用CM安装CDH的过程中,发现cloudera-cdh5的yum源会自动的访问网络,因此报错,导致安装不成功。因此需要安装一个本地的yum源。下文是经转载而来,但一些细节会结合我的项目环境而改变。为了方便在局域网中安装CDH集群,搭建一个CDH的yum本地源,方便局域网内各节点安装。在Cloudera的官网中给出了CDH本地源的搭建过程(官网...转载 2018-08-09 16:30:55 · 2278 阅读 · 0 评论 -
【个人项目】基于scrapy-redis的股票分布式爬虫实现及其股票预测算法研究
前言 都说做计算机的,项目实践是最能带给人成长的。之前学习了很多的大数据和AI的知识,但是从来没有自己做过一个既包含大数据又包含AI的项目。后来就决定做了个大数据+AI的分布式爬虫系统。下面笔者会讲述整个项目的架构,以及所用到技术点的些许介绍。项目介绍这个项目是笔者的个人项目,是基于scrapy-redis框架的股票分布式爬虫框架实现。scrapy是个爬虫框架,但只允许单机的...原创 2018-09-10 23:44:35 · 2325 阅读 · 0 评论