- 博客(38)
- 收藏
- 关注
原创 大数据开发知识汇总
大数据开发需要学习的知识很多,目前基本包括如下知识Linux、Zebra、Hadoop、Flume、Hive、Hbase、Phoenix、Storm、Kafka、Scala、SparkLinux:Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应...
2019-06-03 21:38:47
1052
原创 大数据开发有哪些难点?
今天我们聊聊大数据开发,大数据开发共有四个阶段:数据采集,数据汇聚,数据转换和映射,数据应用 。那么每一个阶段,他们的难点有都是什么呢?数据采集数据采集有线上和线下两种方式,线上一般通过爬虫、通过抓取,或者通过已有应用系统的采集,在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用python或者nodejs制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库...
2019-06-03 21:37:52
4763
原创 大数据之Hbase--面试题整理
01-Hbase的特点以下五点需要准确说出的,如果可以还可以将一下Hbase的写入比读取快的原因(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含r...
2019-06-03 16:37:34
2518
原创 大数据之数仓--DW--Hadoop数仓实践Case-08-退化维度
退化维度概述退化维度,该技术减少维度的数量, 简化维度数据仓库模式。 简单的模式比复杂的更容易理解, 也有更好的查询性能。 有时, 维度表中除了业务主键外没有其他内容。 例如, 在我们的销售订单示例中, 订单维度表除了订单号, 没有任何其他属性, 而订单号是事务表的主键。 我们将这种维度称为退化维度。 业务系统中的主键通常是不允许修改的。 销售订单只能新增, 不能修改已经存在的订单号, 也...
2019-06-03 16:34:09
1703
原创 大数据实战:电商该如何利用大数据获取流量?
这些年,移动电商APP的出现,让购物变得越来越便捷,电商行业快速发展。各电商的促销方式越来越多样,甚至出现了双十一、“618”等几乎全民兼知的购物节。除了淘宝、京东以外,还有拼多多、网易严选等各大大小小的电商平台,甚至一些工具类应用中,也出现了电商的板块。在用户有限的时间里,流量变成了稀缺资源。 那么,在这种情况下,电商该如何利用大数据获取更多流量呢?01市场...
2019-06-03 14:21:15
1658
转载 Python 分析谁才是《权力的游戏第八季》真正的C位?
上个礼拜《权力的游戏第八季》放出大结局,最终的结果「布兰」登上了铁王座。这个结果确实是大家没有想到的。原本想着如果不是「龙妈」,那么就该是「雪诺」。怎么就轮到「布兰」了呢。一个可以随时随地监视别人的人坐上了铁王座,细思极恐...《权力的游戏》系列从2011年4月17日开播直到最后一集5月19日,一共历时九年,终于落下了帷幕。也算是陪伴了一些人的青春,看看上图里的「小...
2019-06-03 14:20:43
239
原创 大数据中的深度学习和算法
现如今,大数据越来越火热,在大数据火热的同时,也诞生了很多关于大数据的热词。需要告诉大家的是,大数据中的热词都是从以前的基础技术经过发展形成的,虽然内容不是新颖的,但是只有掌握了这些知识我们能够更好的应对大数据处理的工作,下面我们就给大家介绍一下大数据中的算法和深度学习。【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取1.深度...
2019-06-03 14:20:35
2656
原创 五分钟读懂:大数据和传统数据的区别
大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:1、大数据(big data):指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、...
2019-06-03 14:20:12
18830
转载 大数据、数据分析和数据挖掘的区别
大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:1、大数据(big data):指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、...
2019-06-02 17:57:27
30055
1
转载 谈谈我的面试经历:大数据开发如何面试?
1面试官:您好,请讲述一个自己最熟悉的项目,自己在其中的贡献?最优解答:项目规模和介绍:某项目,是为多少用户提供什么服务,哪些功能和核心模块。技术架构:遇到高并发,高可用的实际问题是什么,因此采用Hadoop离线处理和Spark实时计算。技术难点一:离线处理中的数据处理,比如数据表的行转列,JSON转Java,复杂的SQL语句等。技术难度二:实时处理时的常见内存溢出问题...
2019-06-02 17:55:13
7807
1
转载 2019最全的大数据技术解读,如何4个月掌握大数据核心技术?
第一:什么是大数据来看看维基百科的定义大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免...
2019-06-01 21:59:49
1233
转载 从Hadoop到Spark,看大数据框架的前世今生!
谈到大数据框架,不得不提Hadoop和 Spark,今天我们进行历史溯源,帮助大家了解Hadoop和Spark的过去,感应未来。在Hadoop出现前人们采用什么计算模型呢?是典型的高性能HPC workflow,它有专门负责计算的compute cluster,cluster memory很小,所以计算产生的任何数据会存储在storage中,最后在Tape里进行备份,这种workflow主要适...
2019-06-01 21:59:47
366
原创 大数据架构师从入门到精通,你get到了吗?
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。...
2019-06-01 21:59:40
313
1
转载 面试大数据岗位我要月薪10k,为什么总监给我20k?
在从事了工作3-5年之后,热情逐渐的消退,虽然能够高效的完成工作,但薪资却迟迟不见涨动,多次和领导沟通,也总是得到“知道了”这样的回复。其实,自己也明白,这是工作上的瓶颈,想要实现薪资50%以上的上升,除了上升管理岗,就只能转行了。在一个岗位工作几年后,前有老员工取得的业绩压力,后有新人的拼劲和好学,夹在中间的职场人在发展的进程中遇到了某种难以言说的尴尬和障碍,进入了一个无法突破的瓶颈。薪...
2019-06-01 21:32:50
635
转载 精细化的大数据学习路线,2019实现更加高效的转型
科技的不断升级促使各个行业快速的发展,当然,也为从业者带来了更多的发展机会。大数据作为IT领域的一个“新贵”,也正在冲击着当下的整个市场。数据驱动一切是未来的时代趋势,因此就有着越来越多的人进入这个行业。但是,如何高效的实现学习、实现转型,就成为了求学者必须要考虑的问题。大数据是一个“方法论”,是一个解决方法,因此他本身并不是一个单一的概念。所以,想要学懂大数据,就需要有精细化的大数据学习...
2019-06-01 21:31:22
223
原创 找不到方向?10大热门大数据应用领域总有一款适合你
时代的潮流总是在不断的改变,智能手机刚刚上线时的火爆、互联网+对于整个市场的冲击等,新事物总是在促进着市场的快速发展,如今,大数据成为时代的“主角”,数据驱动一切的强大影响力正在快速的改变着这个世界。都说大数据是一个趋势,BAT等行业巨头纷纷追捧、政策鼓励各大高校纷纷开设专业、媒体聚焦各大平台争相报道,似乎大数据成为了新时代的“香饽饽”。面对着市场上动辄15k以上的薪资,入行大数据的人也越...
2019-06-01 21:29:28
785
转载 大数据学习要知道的十大发展趋势,以及学习大数据的几点建议
2016年,近40%的公司正在实施和扩展大数据技术应用,另有30%的公司计划在未来12个月内采用大数据技术,62.5%的公司现在至少有一个大数据项目投入生产,只有5.4%的公司没有大数据应用计划,或者是没有正在进行的大数据项目,虽然大数据市场将会继续增长这一点毋庸置疑,新的大数据技术正在进入市场,而一些旧技术的使用还在继续增长,本文介绍2017年及以后大数据未来发展的十大趋势。由于大数据技术涉及内...
2019-06-01 13:18:29
420
原创 python vs Java
作为程序员们的看家利器之编程语言,倘若技术开发者对其掌握得越深则对自身职业生涯越有益处,然随着技术的更新变革,我们在日常使用不单单只会用到一门编程语言,那么究竟该如何选择一门新的语言来上手?本文中,将以主流 Java 和 Python 为例,为大家详细地解析两者的优缺点以及应用场景。以下为译文:如今这个时代,科技进步在不断加速,你不能只学习一门编程语言。编程语言是计算机科学的基本,编程...
2019-06-01 13:16:31
2045
原创 大数据开发跟大数据分析的区别是什么?
做大数据开发好还是大数据分析比较好一些?哪个薪资高?零基础学习大数据开发,还是大数据分析?哪方面比较好?今天我们来从技术角度和薪资角度全面进行分析,方便你的选择。技术区别在做选择之前,需要了解两者的不同,然后再结合自身已有的基础和兴趣做决定。1、大数据开发类的岗位对于code能力、工程能力有一定要求,这意味着你需要有一定的编程能力,有一定的语言能力,然后就是解决问题的能力,因为...
2019-06-01 13:15:18
16031
2
原创 一起来学大数据|为何学习大数据,要先学Java?之茅塞顿开
大数据的就业、工资的水平等等方面都让更多的人投身进入到学习大数据的旗下。其实,我们也不难发现,在外面报班学习的时候,刚刚开始的时候,几乎都是先学习Java语言,在慢慢进入大数据的学习。那么我们到底要学习哪些java知识对于大数据有帮助?今天我带大家来分析一波,学习大数据为什么先学java。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,...
2019-05-31 23:37:43
348
转载 大数据到底好学吗:数据科学家论与大数据学习知识误区
地球比来,良多网友就若何进修大数据手艺就教了我。大数据是若何起头的?若何停止大数据分析?数据科学必要进修手艺吗?大数据应用前景预测。由于大数据手艺的相干内容过于复杂,大数据的应用,差异和各规模的关头手艺和生长标的目的将更大,这两个词或三个关头手艺的体系特别是坚苦的,本文从数据科学和大数据的角度来看,大数据的焦点手艺到底说的是什么,若何进修,若何按捺大数据进修的误区,供参考。大型数据应...
2019-05-31 23:37:34
741
转载 云计算与大数据基础之大数据
什么是大数据维基百科将大数据描述为:大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。大数据的“大”是一个动态的概念以前10GB的数据是个天文数字;而现在,在地球、物理、基因、空间科学等领域,TB级的数据集已经很普遍。大数据系统需要满足以下三个特性。(1)规模性(Volume):需要采集、处理、传...
2019-05-31 21:59:46
3043
转载 Python虽然很火,为啥找工作这么难
知乎有人提了这么个问题,Python这么火,为啥找工作这么难呢?这两年因为第三波人工智能热潮让 Python火了一把,让中小学生、非程序员(产品经理、运营)都加入到了学习Python的行列,那之前Python火吗?虽然和Java、C这些大佬有差距, 但是它一直保持在前几位,并没有掉队,紧随大佬。而曾经很热门的 Perl、Ruby 似乎都淡出了我们的视线。跟经济一样,语言也有周期...
2019-05-30 21:59:47
9935
2
转载 大数据开发岗位的职业规划,你知道吗?
大数据程序员只学到技术就可以了吗?只要能写代码改bug就可以无忧了吗?你想过自己的未来规划吗?想过10年后自己能过上什么水平的生活吗?想要更好过上的生活水平,除了专业的技术外,你还需要一份合格的职业规划。我们不可否认的是,互联网公司本身结构比较扁平,管理岗位较少,那么我们该如何进行职业规划和技能储备,才能从激烈的竞争当中脱颖而出呢?一、拓宽业务场景这里的业务场景分为...
2019-05-30 21:59:44
13322
2
转载 什么是大数据开发?
♥️大数据开发是干什么的?大数据作为时下火热的IT行业的词汇,随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据开发也应运而生。大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data analyst这种...
2019-05-30 21:59:42
7632
1
转载 Hadoop大数据学习的秘密模型
6年前,我研究生刚刚毕业,那时候我以为自己很懂,为了得到一个北京户口,我进入了一家高新技术企业,其实就是一家小公司,结果很悲催 ,一来没有什么技术深度,二来没有人带,一切靠自己摸索,进步非常缓慢,靠学校学的那些C、Java等语言,艰难的工作着。在起初的工作中,大部分项目都涉及服务器开发,所以我又自学了Linux,说实话现在看来当时真的是浪费了大量的时间,加上工作上本身就很忙,分配给学习的时间往...
2019-05-30 21:59:39
701
原创 Kafka的存储机制以及可靠性
目录 1.Kafka简介及安装配置 2.Kafka的存储机制以及可靠性 Kafka的存储机制以及可靠性 一、kafka的存储机制 kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。 所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。 1、segment...
2019-05-25 15:40:05
721
原创 老程序员告诉你大数据模型建立的6大技巧
数据建模是一门复杂的科学,涉及组织企业的数据以适应业务流程的需求。它需要设计逻辑关系,以便数据可以相互关联,并支持业务。然后将逻辑设计转换成物理模型,该物理模型由存储数据的存储设备、数据库和文件组成。 历史上,企业已经使用像SQL这样的关系数据库技术来开发数据模型,因为它非常适合将数据集密钥和数据类型灵活地链接在一起,以支持业务流程的信息需求。 不幸的是,大数据现在包含了很大比例的管理数...
2019-05-25 15:30:43
2825
原创 大数据框架Hadoop和Spark对比优势
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗? 为了增加混淆,Spark和Hadoop经常与位于HDFS,H...
2019-05-25 15:19:52
3007
原创 大数据系统计算的概念全面解析
1 引言 大数据是新一代信息技术的核心方面和竞争前沿,也是制约大数据产业快速发展的关键瓶颈。大数据技术创新能力已经成为后信息时代衡量国家竞争力的重要指标。与传统信息产业的发展过程相似,大数据必将逐渐形成一个相对独立、体系完善的产业形态,完成传统信息产业的升级换代。互联网和云计算的发展过程与趋势已经证明,大数据未来的产业形态将是以服务为核心的新型产业形态,大数据产业体系的各个环节将提供极为丰...
2019-05-25 15:19:48
5643
原创 Spring Boot、微服务架构和大数据治理三者之间的故事
微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物。互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如何从系统架构的角度出发,构建灵活、易扩展的系统,快速应对需求的变化;同时,随着用户的增加,如何保证系统的可伸缩性、高可用性,成为系统架构面临的挑战。 如果还按照以前传统开发模式,开发一个大型而全的系统已...
2019-05-25 15:19:45
199
原创 大数据挖掘技术全方位介绍轻松易懂
大数据如果想要产生价值,对它的处理过程无疑是非常重要的,其中大数据分析和大数据挖掘就是最重要的两部分。在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。 什么是大数据挖掘? 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有...
2019-05-25 15:19:41
579
原创 基于Hadoop的大数据平台实施架构的规划
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至...
2019-05-25 15:19:37
650
原创 大数据学习如何选择合适的编程语言
有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。 分享之前我还是要推荐下我自己创建的大数据学习交流Qun458345782无论是大牛还是想转行...
2019-05-24 18:46:58
1592
原创 大数据入门学习框架hadoop
一. Hadoop Yarn 是什么在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这一改动,直接让 Hadoop 成为大数据中最稳固的那一块基石,而这个独...
2019-05-24 17:30:04
246
原创 大数据常用的软件工具有哪些?
首先,对于传统分析和商业统计来说,常用的软件工具有Excel、SPSS和SAS。 Excel是一个电子表格软件,相信很多人都在工作和学习的过程中,都使用过这款软件。Excel方便好用,容易操作,并且功能多,为我们提供了很多的函数计算方法,因此被广泛的使用,但它只适合做简单的统计,一旦数据量过大,Excel将不能满足要求。 SPSS和SAS都是商业统计才会用到的软件,为我们提...
2019-05-24 17:30:02
5110
原创 入门学大数据需要了解的大数据相关的技术
大数据技术指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据相关的十大技术 1、Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师...
2019-05-24 17:30:00
456
原创 大数据十大应用领取未来发展趋势
1.了解和定位客户 这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。 利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。...
2019-05-24 17:29:58
1151
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人