
大数据
Chungchinkei
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce处理MovieLens ml-100k数据集
数据集介绍待补充user id | item id | rating | timestamp.map阶段#coding=utf-8import sysfor line in sys.stdin: line = line.strip().split() #userid rating print "%s\t%s" % (line[0], line[2])[r...原创 2019-08-03 21:30:09 · 1524 阅读 · 0 评论 -
pyspark实现ALS矩阵分解算法
准备工作本例使用MovieLens ml-100k数据集实现ALS矩阵分解算法,附上数据集下载链接.推荐算法实例打开jupyter notebook,新建一个Python3 notebook:import osimport sys# 动态加载pyspark目录SPARK_HOME = os.environ.get('SPARK_HOME')sys.path.insert(0,os...原创 2019-08-12 15:04:36 · 1457 阅读 · 0 评论 -
Spark的jupyter notebook开发环境搭建及pyspark的使用
开启服务启动Hadoop,Spark并开启jupyter notebook的远程服务:[root@DW1 ~]# start-all.sh# 我把spark的start-all.sh更名为start-spark-all.sh,不然有与hadoop重名的风险[root@DW1 ~]# start-spark-all.sh# root用户要加--allow-root[root@DW1 ~]...原创 2019-08-12 13:48:41 · 1366 阅读 · 1 评论 -
HQL实现Hive的WordCount实例
前言1.创建wordcount数据库hive> create database wordcount;OKTime taken: 2.313 secondshive> show databases;OKdefaultwordcountTime taken: 0.926 seconds, Fetched: 2 row(s)2.创建表官方的Tutorial给出一...原创 2019-08-07 16:12:14 · 372 阅读 · 0 评论 -
CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
一、安装环境操作系统:CentOS7.6Hadoop版本:Hadoop3.2.0MySQL版本:MySQL5.7Hive的安装基于Hadoop,因此需要先搭建好Hadoop环境,详细可见:CentOS7 + Hadoop 3.2.0集群搭建;其次以MySQL作为Hive的元数据库,所以也要先安装好MySQL,详见:CentOS7下yum方式安装MySQL5.7二、安装配置Hive官...原创 2019-08-07 10:34:24 · 3884 阅读 · 7 评论 -
CentOS7 + Hadoop 3.2.0集群搭建
准备工作关闭防火墙[root@DW1 ~]# systemctl stop firewalld.service[root@DW1 ~]# systemctl disable firewalld.service[root@DW1 ~]# firewall-cmd --statenot running关闭SELINUX# 修改为SELINUX=disabled[root@DW1 ~]...原创 2019-08-06 11:52:57 · 1119 阅读 · 0 评论 -
Python实现MapReduce的WordCount实例
目录基本信息尽管Hadoop的基本框架是用java实现的,但hadoop程序不限于java,可以用python、C++及ruby等等。本例实现统计输入文本的单词的频数。操作系统:CentOS7.6Hadoop版本: Hadoop 3.2.0伪分布式环境Python版本: Python2.7.5实例代码mapreduce参考资料用python写MapReduce函数——以...原创 2019-08-02 14:28:42 · 1548 阅读 · 0 评论 -
初步认识MapReduce
MapReduce介绍MapReduce是hadoop的一种分布式计算框架,用于大规模的并行计算。MapReduce的工作阶段可以分为Map阶段和Reduce阶段,这也是MapReduce名字的由来,每一个阶段都是以键值对(key/value)作为输入和输出。在实际编程中,底层的东西框架已经帮我们写好了,我们只要定义Map和Reduce任务,实现几个接口就好了。MapReduce的运行机制...原创 2019-08-01 20:35:42 · 242 阅读 · 0 评论 -
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
搭建准备首先 下载Spark安装包,注意如果之前搭建了Hadoop,要选择对应的的版本。我之前搭建的是Hadoop 3.2.0伪分布式环境,因此下载spark包的时候,要选择Pre-build for Apache Hadoop 2.7 and later.在/usr/local下创建spark文件夹,然后解压我们刚才下载的包。[root@DW1 spark]# tar -zxvf spa...原创 2019-08-05 11:38:07 · 1666 阅读 · 1 评论 -
初步认识HDFS的原理及架构
1.HDFS介绍在现代的企业环境中,数据存储主要存在两个问题:存储的数据量大,单机往往无法存储大量数据;存储不够安全,节点不可用时数据容易丢失。分布式文件系统就是为了解决以上两个问题而诞生的,而 HDFS(Hadoop Distributed File System) 就是Hadoop的分布式文件系统具体实现。可以理解为,Hadoop是对大量数据进行分布式处理的系统框架,而HDFS是H...原创 2019-07-31 20:54:30 · 204 阅读 · 0 评论 -
Spark分析Amazon DataSet(实现Spark TF-IDF)
准备工作本例使用Home and Kitchen数据集,附上下载链接.数据集有reviews_Home_and_Kitchen_5.json.gz和ratings_Tools_and_Home_Improvement.csv两个文件。前者是json文件,内容如下:{"reviewerID": "APYOBQE6M18AA", "asin": "0615391206", "reviewerN...原创 2019-08-12 15:26:43 · 710 阅读 · 0 评论