
大数据学习
文章平均质量分 97
拧螺丝专业户
这个作者很懒,什么都没留下…
展开
-
Giraph入门
添加链接描述转载 2018-10-06 09:48:44 · 2359 阅读 · 0 评论 -
Java远程操作HDFS文件系统
目标:通过Java编程实现远程HDFS文件系统的增、删、改、查,并且解释原理。一、准备工作集群:搭建Hadoop集群,并且启动HDFS。详细过程可以参考:Hadoop-2.5.1安装步骤及异常处理二、创建Maven工程选择创建工程:选择JDK版本,并勾选"create from archetype"选项,千万不要手贱选择“quick start”,选快速开启的话,创建的maven工程中...原创 2019-05-30 23:08:30 · 4309 阅读 · 0 评论 -
Python大数据分析实战:豆瓣电影Top250中的最佳导演是谁?
在之前写的一篇文中中,已经采用urllib和BeautifulSoup的方式抓取了豆瓣电影TOP250的导演、编剧、演员、上映时间和地区、语言、短评数、影评数、多少人想看、多少人看过等22个字段。接下来,我们要对这些数据进行分析、挖掘,得到有价值的信息。下面是整个分析过程的思维导图:一、获取数据先从csv文件中读取数据,观察一下:import pandas as pddf = pd...原创 2019-05-07 01:54:08 · 1624 阅读 · 0 评论 -
零基础爬虫实战(Python):抓取豆瓣电影TOP250
学习了《简明Python教程》,然后想着实战一下,搜索了一些资料,然后对豆瓣电影排行250进行了一个抓取,后续还会对数据进行一些分析。 这篇文章主要是对抓取豆瓣电影top250过程的一个梳理,方便日后自己查阅,也希望可以方便到有需要的人。一、整体步骤 下面是整个抓取过程的思维导图:1. 生成URL信息 首先观察豆瓣电影TOP250的网页地址,多点开几页,就能发现规律。...原创 2019-05-07 01:26:51 · 7033 阅读 · 1 评论 -
Hadoop资源调度框架Yarn的知识体系
下面是Yarn的知识体系图,这篇文章会介绍所有涉及的知识点。一、MRv1的架构和缺陷Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。在 MapReduce 框架中,作业执行受两种类型的进程控制:一个称为 JobTracker 的主要进程,它协调在集群上运行的所有作业,分配要在 TaskT...原创 2019-05-19 10:46:43 · 602 阅读 · 0 评论 -
分布式文件系统HDFS的起源、架构、组成、特性以及数据操作方式
HDFS知识学习 hdfs全程是Hadoop Distributed File System,是一个分布式文件系统。 本博客首先介绍一下分布式的相关概念和知识,然后介绍HDFS的架构与组成,接着会详细分析HDFS读写数据的过程与元数据的管理,最后会总结操作HDFS文件的方式。一篇博客不可能详细讲清楚每一个细节,如果有不足和需要更正的地方,还希望大家留言指出来。分布式 分布式是近...原创 2019-05-14 10:15:43 · 2866 阅读 · 0 评论 -
《简明Python教程》学习笔记
基本知识第一个Python程序:print("hello world")如何退出Python的解释器提示符: 在Linux或OS X的shell程序中,可以通过按下[ctrl+d]或输入exit()。 在windows命令提示符中,可以按下[ctrl+z]组合键,然后敲击[center]键来退出。注意:Python 是区分大小写的,如 print 和 Print 是不同的——注...原创 2019-04-26 09:48:34 · 2584 阅读 · 1 评论 -
Zookeeper-3.4.5安装步骤及异常处理
zookeeper安装步骤相关的知识可以参看zookeeper的官网地址:http://zookeeper.apache.org/一、单机部署(Standalone Operation)下载zookeeper的稳定版本,或者自己想要的版本,在zookeeper的官网页面可以找到下载地址。这个教程下载的是zookeeper-3.4.5.tar.gz版本的文件。然后把文件移动到合适的位置,...原创 2018-12-04 11:06:19 · 3061 阅读 · 0 评论 -
Hadoop-2.5.1安装步骤及异常处理
Hadoop安装步骤目标在vmware14.1.1中的三个虚拟机上安装hadoop 2.5.1 稳定版本。由于hadoop 2.x.x 都是同一个系列,所以其他hadoop 2.x.x版本的安装可以参照这篇步骤来做。环境介绍三台vmware-14.1.1中的虚拟机操作系统:ubuntu 16.04 LTS网络配置:vm-01 /etc/hosts文件 127.0.0.1 ...原创 2018-12-04 11:00:38 · 875 阅读 · 0 评论 -
今日头条算法及技术架构分析
今日头条算法及技术架构分析 由于好奇,所以在网上搜索了大量的今日头条算法及技术架构文章,最后想进行一个总结。 下面主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、今日头条推荐算法原理及详解1.系统概念 推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。 推荐系统,如果用...原创 2018-11-25 16:10:13 · 15745 阅读 · 5 评论 -
今日头条技术架构分析
今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。一、产品背景 今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合):5亿注册用户2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。几乎为成倍增长。日...原创 2018-11-25 17:13:43 · 29898 阅读 · 0 评论 -
Docker学习(一)ubuntu18.04 安装Docker
要想学习docker,首先得安装一个Docker是吧。那我下面就以Ubuntu16.04为例子,来安装Docker。建议在安装docker前,把apt的源更改为国内的源,步骤可以参考Ubuntu 更换国内源Step1 卸载掉老版本的Docker老版本的Docker叫作docker, docker.io, or docker-engine. 如果Ubuntu系统已经存在这些软件的话,那么首先是...原创 2019-08-24 19:02:30 · 275 阅读 · 0 评论