
大数据
文章平均质量分 69
java架构大数据浅析
这个作者很懒,什么都没留下…
展开
-
大数据零基础就业班学习路线
通过真实企业项目,JAVA高并发、Hadoop、Hive、Scala、Spark、Python、机器学习等大数据技能,实现年薪翻番。课题内容知识重点备注Linux理论(4晚)Linux基础操作系统安装自学视频基础命令使用软件安装Linux-shell编程shell:bash基础脚本实战高并发:lvs负载均衡网络理论四层LVS模型理论LVS实验高可用&反向代理keepalivednginxH...原创 2018-07-01 15:10:18 · 858 阅读 · 3 评论 -
基于Spark环境对比Python和Scala语言利弊
在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点。本文翻译自 https://www.dezyre.com/article/Scala-vs-Python-for-apache-Spark/2131.性能对比由于Scala是基于JVM的数据分析和处理,Scala比Python快10倍。当编写Python代码用且调用Spark库时,性能...翻译 2018-08-20 20:45:57 · 1708 阅读 · 0 评论 -
2018年互联网大数据之大数据潮流的主先锋Spark集群安装与部署
首先,跟大家简单说一下什么是大数据,没有百度的复杂,就是我自己总结的,有什么不对的地方,请大家指教!1、何为大数据?大数据就是短时间内,快速产生大量的多种多样的有价值的数据。2、Spark是什么?Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬...原创 2018-08-23 21:41:38 · 237 阅读 · 0 评论 -
程序员必备大数据技能之分布式云平台Hadoop
一、Hadoop创始人介绍Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。二、Hadoop简介Hadoop名字来源于Doug Cutting儿子的玩具大象。2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了...原创 2018-08-31 21:48:09 · 675 阅读 · 0 评论 -
大数据Hadoop 技术内幕:深入解析 HDFS架构设计与实现原理
一、HDFS架构 二、HDFS设计思想 三、HDFS写流程 ---Client:·切分文件Block·按Block线性和NN获取DN列表(副本数)·验证DN列表后以更小的单位流式传输数据---各节点,两两通信确定可用·Block传输结束后:---DN向NN汇报Block信息---DN向Client汇报完成---Clien...原创 2018-09-04 17:23:26 · 1160 阅读 · 0 评论 -
大数据Hadoop分布式文件系统HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目...原创 2018-09-02 16:44:38 · 827 阅读 · 0 评论 -
大数据Hadoop生态圈技术之浅析PageRank计算原理
一、什么是PageRank?—— PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。—— 是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的—— PageRank实现了将链接价值概念作为排名因素。二、计算环境—— Hadoop-2.5.2—— 四台主机—— 两台NN的HA—— 两台RM的HA—— ...原创 2018-09-11 16:30:14 · 310 阅读 · 0 评论 -
Hadoop 1.x与Hadoop 2.x
一、Hadoop2.0产生的背景——Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题——HDFS存在的问题·NameNode单点故障,难以应用于在线场景 HA·NameNode压力过大,且内存受限,影扩展性 F——MapReduce存在的问题响系统·JobTracker访问压力大,影响系统扩展性·难以支持除MapReduce之外的计算框架...原创 2018-09-05 17:25:16 · 188 阅读 · 0 评论 -
大数据Hadoop分布式文件系统HDFS的两类节点NameNode和DataNode
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。一、NameNode(NN)——基于内存存储 :不会和磁盘发生交换·只存在内存中·持久化——NameNode主要功能·接受客户端的读写服务·收集DataNode汇报的Block列表信息——NameNode保存metadata信息包括·文件ow...原创 2018-09-09 17:06:05 · 3321 阅读 · 0 评论 -
不知道能不能称得上史上最全大数据 高效学习 成就未来
通过真实企业项目,JAVA高并发、Hadoop、Hive、Scala、Spark、Python、机器学习等大数据技能,实现年薪翻番。4大核心项目让你快速掌握架构体系以及处理架构方案。 第一部分 Linux 基础1. Linux 的介绍,Linux 的安装:VMware Workstation 虚拟软件安装过程、CentOS 虚拟机安装过程2. 了解机架服务器,采用真实机架服务器...原创 2018-09-13 21:48:15 · 285 阅读 · 0 评论 -
ZooKeeper 典型应用场景一览
北京尚学堂旗下优效学院《零基础大数据就业班VIP知识之ZooKeeper 典型应用场景一览》VIP文档版本 视频版本WX:Nancy007001,免费获取,时间有限,自己争取。ZooKeeper 是一个高可用的分布式数据管理与系统协调框架。基于对 Paxos 算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得 ZooKeeper 解决很多分布式问题。网上对...原创 2018-10-25 22:37:40 · 348 阅读 · 0 评论 -
深入剖析Tomcat性能优化与集群session共享
北京尚学堂旗下优效学院《Tomcat性能优化与集群session共享》公开课文档版本 视频版本wx:Nancy007001 备注:优快云 免费获取tomcat 运行模式优化Tomcat Connector(Tomcat 连接器) 有 bio、nio、apr 三种运行模式BIO模式bio(blocking I/O),顾名思义,即阻塞式 I/O 操作,表示 Tomcat...原创 2018-10-29 21:41:09 · 580 阅读 · 0 评论 -
1小时快速搭建高可用集群(High Availability)
《1小时快速搭建高可用集群(High Availability)》主讲老师:尚学堂大数据vip张雷老师时间:8月26日晚上20:00课堂直达:https://ke.qq.com/course/215398?flowToken=1002412本次课程你将学到:最新Spark2.3.1版本,搭建高可用集群(High Availability)(1)HA集群原理(2)HA集群...原创 2018-08-26 18:01:53 · 297 阅读 · 0 评论 -
为什么IT行业人员纷纷转型hadoop大数据工程师
AI、大数据、云计算,这三者在如今的互联网时代无人不知无人不晓,火爆程度不言而喻。随着,各大高校纷纷开设大数据专业以及各大企业纷纷高薪聘请大数据开发专业人才,促使转行的人越来越多,那么对于IT领域的从业人员为何纷纷转型hadoop大数据工程师呢? Hadoop官方定义是:Hadoop项目™®是一套可靠的,可扩展的,支持分布式计算的开源软件。是Apache软件基金会的顶级开源项目...原创 2018-08-08 21:52:47 · 990 阅读 · 1 评论 -
大数据在银行的七个应用实例
大数据文摘翻译,转载请保留翻译:Chenlu,Lynda; 校对:闫瑾 Hadoop is present in nearly every vertical today that isleveraging big data in order to analyze information and gain competitiveadvantages. Many financial org...原创 2018-08-03 15:51:59 · 9897 阅读 · 0 评论 -
佛系编程
可以在下方留言哦原创 2018-07-08 15:19:34 · 375 阅读 · 1 评论 -
Redis中文入门手册
1) Redis 简介Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库。2) 数据类型2.1. Redis 的 KeyRedis 的 key 是字符串类型,但是 key 中不能包括边界字符,由于 key 不是 binary safe的字符串,所以像"my key"和"mykey\n"这样包含空格和换行的 key 是不允许的。2...原创 2018-07-02 16:27:19 · 838 阅读 · 0 评论 -
Redis中文入门手册之hash
2.2.2. hash 类型hash 是一个 string 类型的 field 和 value 的映射表。添加,删除操作都是 O(1)(平均)。hash 特别适合用于存储对象。相对于将对象的每个字段存成单个 string 类型。将一个对象存储在 hash 类型中会占用更少的内存,并且可以更方便的存取整个对象。省内存的原因是新建一个 hash 对象时开始是用 zipmap(又称为 small has...原创 2018-07-03 17:42:47 · 218 阅读 · 0 评论 -
Redis中文入门手册之list
list 类型list 是一个链表结构,可以理解为一个每个子元素都是 string 类型的双向链表。主要功能是 push、pop、获取一个范围的所有值等。操作中 key 理解为链表的名字。List 类型数据操作指令简介lpush key string 在 key 对应 list 的头部添加字符串元素,返回 1 表示成功,0 表示 key 存在且不是 list 类型。rpush key string...原创 2018-07-04 15:37:52 · 147 阅读 · 2 评论 -
启动和停止完整集群的步骤
1.启动和停止完整集群的步骤#启动完整集群的步骤#第一步:启动zookeeper./ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start#第二步:在nn1上启动所有start-all.sh#第三步:在nn1上启动yarn日志代理服务yarn-daemon.sh start proxyserver#第四步:在n...原创 2018-07-17 16:24:54 · 1865 阅读 · 0 评论 -
迈向大数据时代 为你未来10年的竞争力加持砝码
在2016年和2017年的全美最佳岗位排行榜中,“数据科学家”一职位已经连续两年位列前茅;在美国,数据科学家平均年薪为11.9万美元,而程序员平均年薪为6.5万美元,其差距可见一斑;纵观国内的招聘市场,数据科学从业者的收入虽与美国尚有差距,但其月薪普遍高于其他技术类岗位30%-50%;IBM的一项调查显示,到2020年社会对于数据科学家和数据工程师的需求将增30%,届时每年开放的岗位将...原创 2018-07-19 15:46:42 · 218 阅读 · 0 评论 -
谁再说听不懂大数据算我输!
首先,让我们先了解一下什么是大数据?大数据,简单的来说,就是在短时间内,快速产生大量的多种多样的有价值的数据。那是什么原因产生了大数据呢?也就是说大数据产生的原因是什么呢?1、宽带的宽带升级 2M→ 10M → 100M→ 1000M2、手机上网设备的升级 2G→3G→4G→5G?3、各种各样的APPlication 网站4、各种各样的手机APP5、上网人数的激增(智能...原创 2018-07-20 13:35:49 · 270 阅读 · 0 评论 -
谁在听不懂大数据算我输——大数据核心技术spark
上次,小编给大家介绍什么是大数据以及大数据产生的五大原因!那,大数据来了,作为程序员的我们如何迎接大数据的到来?那便只有学好大数据,其中的重中之重我觉得就是spark ,那什么是spark呢?或者说Spark是干嘛的?我总结出四点:1、Spark分布式的计算框架2、类似Hadoop生态圈中的MapReduce(分布式计算框架)3、计算思想和MR(MapReduce简称)非常...原创 2018-07-27 17:10:22 · 340 阅读 · 2 评论 -
「速存」大数据必学基础Linux之Linux的常用命令(1)持续更新
常用Linux命令介绍ls:显示指定工作目录下的内容dir:同ls命令,方便DOS用户使用cd:变换工作目录pwd:显示当前活动目录的绝对路径clear:清屏命令man:查看指令、配置文件的帮助信息,相关信息:help、info、FAQ、internetmkdir:创建新目录rmdir:删除空目录rm:删除文档和目录touch:创建一个空白文件或改变已有文件...原创 2018-08-05 22:25:28 · 168 阅读 · 0 评论 -
2018年全新升级大数据学习路线 +资料领取 让你从基础到精通
2018年全新升级大数据学习路线第一阶段:Linux理论(1)Linux基础;(2)Linux-shell编程;(3)高并发:lvs负载均衡;(4)高可用&反向代理第二阶段:Hadoop理论(1)hadoop-hdfs理论;(2)hadoop-hdfs集群搭建;(3)hadoop-hdfs 2.x & api ;(4)hadoop-MR理论 ;(5)hadoop...原创 2018-08-02 17:39:17 · 308 阅读 · 2 评论 -
在并发编程中线程池的使用
一、为什么要使用线程池当需要处理的任务较少时,我们可以自己创建线程去处理,但在高并发场景下,我们需要处理的任务数量很多,由于创建销毁线程开销很大,这样频繁创建线程就会大大降低系统的效率。此时,我们就可以使用线程池,线程池中的线程执行完一个任务后可以复用,并不被销毁。合理使用线程池有以下几点好处:1、减少资源的开销。通过复用线程,降低创建销毁线程造成的消耗。2、多个线程并发执行任务,...原创 2018-12-07 17:03:32 · 234 阅读 · 0 评论