
云计算/大数据
追梦程序员
杭州电子科技大学计算机科学与技术专业研究生,专业方向机器学习
展开
-
Hadoop环境搭建
上篇文章向大家简单介绍了Hadoop,这篇文章向大家详细介绍Hadoop环境搭建,大家可以跟随这篇教程完成Hadoop的环境搭建。 Hadoop是大数据处理框架,有三种安装模式。 1)本地模式:使用本地文件系统,而不是HDFS,只能测试MapReduce程序。 2)伪分布式模型:具备Hadoop的所有功能,在单机上模拟一个分布式的环境。 3...原创 2018-04-15 14:42:51 · 309 阅读 · 0 评论 -
MapReduce中自定义数据类型作为key
在MapReduce编程模型中key通常是用来排序和划分的。排序是指按照key的大小顺序将 <k,v> 键值对排序,划分是指按照key的hashcode值将 <k,v>划分到指定的Reducer节点上。 MapReduce中的key类型必须实现WritableComparable接口,为了方便用户使用,Hadoop提供有一些内置的key类型。常见的key类型有...原创 2018-05-07 15:24:43 · 4136 阅读 · 2 评论 -
Google的网页排名算法
Google并不是第一家搜索引擎公司,但后来却成为龙头行业,这其中PageRank算法发挥着重要的作用。PageRank是Google创始人之一Larry Page发明的,今天我们就来一起瞻仰下大神的创作。互联网上的每一个网页都可以看作一个顶点,每一个顶点都有出度和入度。出度是指从这个网页能链接到的其他网页的数目,入度是指能链接到这个网页的其他网页的数目。这样整个互联网中的所有网页的链接关系可以看...原创 2018-05-17 22:57:37 · 9349 阅读 · 2 评论 -
数据揭秘“吃鸡”游戏
绝地求生应该是时下最火的一款游戏,然而小编被“我是谁?我在哪?我要干什么?”弄晕了,充分说明我不适合玩游戏。但今天小编用数据来带大家更进一步的了解“吃鸡”游戏。所有数据来源Kaggle,链接地址:https://www.kaggle.com/skihikingkevin/pubg-match-deaths/data。一、大多数人喜欢选择哪些地点跳伞。数据记录了720000场比赛的全部信息,其中有玩...原创 2018-05-17 22:56:18 · 1449 阅读 · 0 评论 -
从影评的角度看《后来的我们》
要说五一期间最火的电影应该是刘若英执导的《后来的我们》,但就目前豆瓣的评分来看,火的不是剧情,而是它的“炒作”翻船了。但作为技术控的我们总希望用技术去探索真相,下面就跟随小编一起来用技术来客观评价《后来的我们》吧。 评价一部电影除了评分、票房之外,小编觉得影评也是一项重要的指标,所以我们就用豆瓣电影上对《后来的我们》影评进行分析。看了这篇文章,你能get到的技能如下: 1.使...原创 2018-05-04 20:47:34 · 1114 阅读 · 0 评论 -
基于MapReduce的并行化大矩阵乘法
并行化大矩阵乘法是较早的基于MapReduce编程模型实现的基础算法之一,最早是由Google公司为了解决PageRank中包含的大量矩阵乘法而提出的。今天我们就来一起学习一下基于MapReduce的并行化大矩阵乘法。我们假设有两个矩阵M和N,其中M的列数等于N的行数,则记M和N的乘积P = M . N。其中Mij表示矩阵M中第i行第j列的元素,Njk表示矩阵N中第j行第K列的元素,则矩阵P中的元...原创 2018-05-02 15:34:39 · 1051 阅读 · 0 评论 -
学习资料大放送
最近有许多小伙伴问我怎么入门机器学习和大数据,为了解答大家的疑惑,为此专门写下这篇文章,希望对大家有所帮助。文章最后还有大量的学习资料哦。入门机器学习机器学习是一门多学科融合的科学,对初学者的要求也比较高,基本要求有如下几点。 (一)数学方面:高等数学+线性代数+概率论。这些课程可以先了解,等到学习机器学习遇到特定的知识时再逐渐加深。 (二)编程方面:机器学习对编程有一定的...原创 2018-04-19 22:10:43 · 367 阅读 · 0 评论 -
MapReduce执行框架的组件和执行流程
MapReduce是Hadoop核心框架之一,是一种并行计算的编程模型。当我们利用Hadoop进行大数据处理时,很大一部分工作就是基于MapReduce编写数据处理程序,所以对于掌握MapReduce执行框架的组件和执行流程非常重要。本文借助WordCount程序来讲述MapReduce执行框架的组件和执行流程。 WordCount程序的作用是统计文本中出现的每个单词的次数。下面先给出W...原创 2018-04-22 22:43:09 · 3837 阅读 · 0 评论 -
Hadoop的简介
Hadoop应该是当前大数据分布式处理最流行的软件框架,它可以使工作人员不充分了解分布式底层原理的情况下开发分布式程序。Hadoop集中解决了大数据处理的两个难点,大数据如何存储和大数据如何计算。 Hadoop的架构思想是怎么来的呢?一切艺术来源于生活,Hadoop也不例外。当年Google在做网页搜索业务时遇到如下两个问题。 (一) 大量的网页数据怎么存储? (...原创 2018-04-13 10:43:09 · 354 阅读 · 0 评论 -
乔丹 VS 詹姆斯
小编从高一开始接触篮球,到今已有7年,是一个十足的篮球爱好者。我们大部分96后只听过乔丹的伟大,却没经历乔丹的时代,幸运的是我们遇见了詹姆斯的时代。篮球界一直有一个热门话题——“詹姆斯是否会超越乔丹?”。今天小编就用数据来谈谈个人对这个话题的观点。数据信息主要包括NBA常用的数据统计,具体含义如下。game:数据ID,自增date:比赛日期 2003/10/29age:比赛当天球员的年龄 18-3...原创 2018-05-25 15:36:37 · 1205 阅读 · 0 评论