
大数据
u4110122855
1.熟悉 Spark、 ElasticSearch、 Kafka、 Solr、 Impala等分布式开源组件
2.熟悉 Spark、 MapReduce 计算框架和工作原理,了解Tez框架
3.熟悉 Scala、 Java、C/C++等编程语言,了解html语言
4.熟悉 Linux 操作系统,能够使用Shell脚本语言编程
5.灵活使用 MySql, Oracle, MS SQL Server 等关系数据库
6.熟悉 Cloudera Hadoop 和纯粹开源 Hadoop 版本的组件
7.有较为丰富的集群部署、开发和维护管理经验
展开
-
ambari-agent 服务启动不了
一直报:需要kill 掉占有进程。netstat -antp | grep 4242原创 2020-04-06 14:05:36 · 1102 阅读 · 0 评论 -
Kafka组件研究<三>----Kafka操作
Kafka操作原创 2017-07-05 21:35:26 · 576 阅读 · 0 评论 -
2017年的六大顶级开源项目
摘要:本文介绍了在开源界比较有名的六个项目。如果你对其中的某个项目不了解的话,赶快来学习一下吧。以下是译文。今天,让我们一起来看一下2017年开源界的六个顶级玩家。下面列出的几个开源项目反映了开源社区在过去几年来发展的成熟度。这里列出的所有项目(Lab41除外)都是在2014年及以后发布的,每个项目都在各自的社区里发挥着重要的作用。TensorFlowGoogle的转载 2017-08-11 09:21:45 · 307 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大转载 2017-09-18 11:36:04 · 549 阅读 · 0 评论 -
Kafka组件研究<四>----Kafka API使用
5.1 创建主题Demo5.2 生产者Demo 5.3 消费者Demo 5.4 常见问题问题一:序列化化问题问题描述:key和value序列化无法构造StringEncoder对象。现象展示: 问题原因:参考网上资料需要加以验证才行。问题解决:使用StringSerializer来替换StringEncoder实现原创 2016-12-19 20:40:41 · 229 阅读 · 0 评论 -
Kafka组件研究<五>---- Kafka监控-KafkaOffsetMonitor
kakfka原理及架构原创 2016-12-19 20:43:14 · 334 阅读 · 0 评论 -
Kafka组件研究<六>---- kafka FAQ
6.1 问题一:ZookeeperConsumerConnector问题问题描述:kafka.common.ConsumerRebalanceFailedException: …..can't rebalance after 4 retries现象展示: 问题原因:consumer rebalancing fails (you will see ConsumerRebalanc原创 2016-12-19 20:52:11 · 513 阅读 · 0 评论 -
Spark性能优化指南——基础篇(转自美团)
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、...转载 2018-04-01 22:00:47 · 265 阅读 · 0 评论 -
Spark性能优化指南——高级篇(转自美团)
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2018-04-01 22:05:39 · 364 阅读 · 0 评论 -
Flink 1.4.2的安装
依赖需求Java 1.8.0 Scala code runner version 2.11.2 Hadoop2.7 配置安装首先解压安装包flink-1.4.2-bin-hadoop27-scala_2.11.tgz [root@hadoop222 conf]# tar -xvzf flink-1.4.2-bin-hadoop27-scala_2.11.tgz ...原创 2018-08-16 17:33:01 · 1455 阅读 · 0 评论 -
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关的优化转载 2017-07-13 19:12:57 · 1715 阅读 · 0 评论 -
Hadoop对各个节点的角色的定义
Hadoop分别从三个角度将主机huafwei转载 2017-07-05 09:45:58 · 1149 阅读 · 0 评论 -
Tachyon--以内存为核心的开源分布式存储系统
Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储系统(如Amazon S3, Apache HDFS, RedHat GlusterFS, Op转载 2016-01-18 22:22:13 · 938 阅读 · 0 评论 -
2016年最值得关注的大数据领域33大预测
2016年大数据领域会发生什么情况?考虑到如今在深层神经网络和规范性分析方面取得的进展,你可能觉得这个问题很好回答。而实际上,来自业界的大数据预测大不相同,本文精选出了最值得关注的33个预测,为您开启未知的2016!数据平民崛起甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起。该公司称:“虽然复杂的数据统计可能仍局限于数据科学家,但数据驱动的决策不会是这转载 2016-01-03 23:12:42 · 952 阅读 · 0 评论 -
解读分库分表中间件Sharding-JDBC
3月18日-19日,由优快云重磅打造的互联网应用架构实战峰会、数据库核心技术与实战应用峰会将在上海举行。作为SDCC 2016(中国软件开发者大会)系列技术峰会的一部分,秉承干货实料(案例)的内容原则,这两场峰会将邀请业内顶尖的架构师和技术专家,共同探讨高可用/高并发系统架构设计、新技术应用、移动应用架构、微服务、智能硬件架构、云数据库实战、新一代数据库平台、产品选型、性能调优、大数据应用实战等转载 2016-02-15 22:10:44 · 47347 阅读 · 3 评论 -
云栖会议.武汉峰会(一)
云栖大会是由阿里巴巴集团主办的全球云计算TOP级峰会,汇聚DT时代最强大脑,描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的生态全景。云栖大会由阿里云开发者大会演化而来,从2010年开始举办,不断突破创新。大会精准吸引全球云计算生态圈从业者,联合各地合作伙伴,展示云计算最新应用和实践成果,引领云计算行业创新发展风向标。原创 2016-06-02 00:10:45 · 1033 阅读 · 0 评论 -
云栖会议.武汉峰会(二)
下午分会场有不同主题,即有云计算大数据企业级应用实战,又有商业化和业务化角度来论述大数据应用的,而阿里云计算大数据平台架构是我颇为关心的,故以下只对系统架构进行论述。原创 2016-06-02 23:39:27 · 6510 阅读 · 0 评论 -
云栖会议.武汉峰会(三)
消息中间件原创 2016-06-03 00:04:27 · 609 阅读 · 0 评论 -
Kafka组件研究<二>----Kafka部署
2.1 配置安装首先解压安装包kafka_2.11-0.10.0.0.tgz然后建立软连接 修改配置文件config/server.properties 2.2 设置环境变量在/etc/profile最后面添加如下环境变量:2.3 启动 2.4 查看&测试可以看到Kafka的进程PID号为20562原创 2016-08-01 21:10:10 · 790 阅读 · 0 评论 -
程序员们,AI来了,机会来了,危机也来了
程序员们,AI来了,机会来了,危机也来了1.人工智能真的来了 纵观古今,很少有计算机技术能有较长的发展寿命,大部分昙花一现,比如:昔日的DOS、windows3.2、foxpro、delphi、80x86汇编,还有很多技术也在艰难地挣扎,比如:delphi、VB、PB、Sqlserver,基于连微软的.NET也被来自全球强大的开源力量逼到了死角, 以至于不得不转载 2017-07-11 19:23:55 · 1019 阅读 · 0 评论 -
全球100款大数据工具汇总
1、 Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码转载 2017-07-04 09:31:34 · 8426 阅读 · 0 评论 -
Livy:基于Apache Spark的REST服务
Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。背景Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处转载 2017-07-04 11:24:26 · 517 阅读 · 0 评论 -
Apache Spark大数据分析入门
摘要:Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教程(共四部分)的第一部分。Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教转载 2015-11-29 23:07:15 · 822 阅读 · 0 评论