
大数据
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
司小幽
知行合一,学而思。
展开
-
《大数据工程师(存储)面试系列(3)》
1.固态硬盘为什么会比机械硬盘快?固态硬盘为什么会比机械硬盘快2.闪存(flash)的实现原理?flash百度百科3.Python在爬取网页的时候用到的库?将网页中的,全部替换为.如何实现?网页中的图片如何爬取?①urllib②re.sub:③右键查看源码,找到图片的相应匹配规则(当时想的深了,想着图片的编码怎么在爬取的时原创 2016-11-16 18:33:03 · 1793 阅读 · 0 评论 -
《大数据(架构师)面试系列(5)》
1.数组与链表的区别是什么?线性表--数组和链表的区别链表和数组的区别在哪里?2.Scala函数式编程的特点?注意是Scalca函数编程这个特性的特点,类似特点的特点,而不是Scala的特点。查找资料如下:Scala同时又是函数式编程语言,函数可以独立存在,可以定义一个函数作为另一个函数的返回值,也可以接受函数作为函数的参数。这给组合函数带来了很大的便利。如何把原创 2016-11-16 20:01:45 · 5056 阅读 · 0 评论 -
大数据工程师(开发)面试系列(7)
MapReduce1. 不指定语言,写一个WordCount的MapReduce我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_WordCount运行详解2. 上述写的程序中.map((_,1))的输出结果是什么我:通过flatMap将其扁平化,而.map((_,1)原创 2017-03-19 22:08:17 · 11175 阅读 · 4 评论 -
大数据工程师(开发)面试系列(6)
由于其中一次谈到的内容比较少,所以本文是两次合并成一篇写的。1. Kylin如何优化我:①经常需要group By查询的维度顺序在先;②基数近1:1的字段选择joint维度;③lookup表尽量避免基数大,更多的可以查看博客 补:《Apache Kylin cube优化指南》2. Hive没有long类型你是怎么处理的?我:之前的项目,做的是Hive关联HBase外表,对于细节上的,比如类型转换原创 2017-03-19 19:51:09 · 1585 阅读 · 0 评论 -
通过Hive及其Udf函数进行Nginx日志分析
需求nginx日志格式: '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_for"'; (暂且不将remoteaddr与remote_addr与remote_u原创 2017-08-10 13:09:23 · 683 阅读 · 0 评论 -
关于阿里云上Hive的一次Debug经历
BugShell层面: 日志层面(hive的日志默认在/tmp/{username}/hive.log) webUI层面 Debug对于日志所报的错误,网上统一的解决方案如下: hive 部署需要注意的几点以及Version information not found 错误解决办法 即在hive-site.xml中将hive.metastore.schema.v...原创 2018-03-18 15:13:15 · 828 阅读 · 0 评论 -
《大数据工程师(开发)面试系列(1)》
1.LVS和HAProxy相比,它的缺点是什么?之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过。面试中出现了这么一题,面试官给予的答案是LVS的配置相当繁琐,后来查找了相关资料,对这两种负载均衡方案有了更进一步的了解。LVS的负载均衡性能之强悍已经达到硬件负载均衡的F5的百分之60了,而HAproxy的负载均衡和N原创 2016-11-13 15:12:07 · 4793 阅读 · 5 评论 -
大数据工程师(开发)面试系列(5)
1. Java的第三方模块你用过哪些?我:也没有刻意去记,所以也没说出来。 补:技术干货:十个非常有用的第三方Java开源库 细数一下,上述所列十个里,大致用过1/2。2. Python的第三方模块你用过哪些?我:爬虫所用urllib,urllib2 补:模块和包.那些让你相见恨晚的PYTHON第三方好用的模块儿和包?3. 你用你的程序调度Kylin以及承接数据失败怎么办?我:在调度之前有落原创 2017-03-19 17:26:06 · 1553 阅读 · 0 评论 -
大数据工程师(开发)面试系列(4)
1.谈一谈你之前是如何围绕Kylin框架进行工作的?我:其实在我的理解中,Kylin它首先是一个OLAP分析引擎,它是如此的轻量、因非侵入式又是如此的友好,所以更愿意将之前的工作定义为是拿Kylin这个神器去为现有的框架添加OLAP的功能,而不是去围着它转。 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最原创 2017-03-19 16:02:17 · 2795 阅读 · 0 评论 -
大数据工程师(开发)面试系列(3)
1. 你觉得大数据处理技术分为几类?我:大致分为3类,Hadoop为代表的批处理;Impala,Hbase为代表的基于历史数据的交互式处理;Storm,Spark,Flink为代表的流式处理。2. Linux系统命令你熟悉的有哪些?我:cat,tree….etc3. 说说你眼里的数据开发究竟是一种什么样的岗位?我:当时刚好看完ETL和Storm系列的视频,所以就学习的这两系列视频对数据开发这个职能的原创 2017-03-19 14:49:10 · 1987 阅读 · 0 评论 -
《大数据工程师(运维)面试系列(4)》
1.MapReduce解决缺值问题?一张非常宽,且数据量大的表,被分割成若干个hdfs上的小文件,其中有一个字段,是自增的(但分布的文件中的这个字段值是乱序的),举个栗子,比如:1,2,3。现在并不知道究竟是哪几个值缺失,请你用MapReduce的方式将那些缺失的值找到?其实这是MapReduce的典型应用场景之一——缺值查找。整体的一个思路是,先将这些乱序的值排好序,然后原创 2016-11-16 19:36:24 · 9658 阅读 · 0 评论 -
《大数据工程师(开发)面试系列(2)》
1.HBase和Hive都是基于Hadoop,为什么Hive查询起来非常慢,但HBase不是?Hive是类SQL引擎,其查询都需要遍历整张表,跑MapReduce自然很慢,但HBase是一种NoSQL的列式数据库,基于Key/Value的存储格式,不需要像Hive一样遍历,自然在速度上,乃至写的性能上是相当之快的。相关参考文献:HIVE和HBASE区别2.通原创 2016-11-14 10:31:09 · 2206 阅读 · 0 评论 -
大数据工程师(ETL)面试系列(1)
1. 你觉得Spark和Hadoop的区别是什么,请简要说一说?我:Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。2. 你觉得Python和Java在使用起来,有什么区别?我:其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。 补:如今,再来审视这个问题,会原创 2017-03-19 14:19:12 · 25016 阅读 · 1 评论 -
《Sqoop将Oracle数据导入至Hive中界面无错却依旧没有数据导入》
一、生产环境Oracle:11g R2版本Sqoop:1.4.6版本Hive:1.1.1版本(利用MySQL作为MetaStore)Hadoop:2.6.3版本(其中Sqoop、Hive、Hadoop均是搭建在Centos6.6 64位上的)远程登录软件:Xshell 5二、需求需要将Oracle中的多张表通过Sqoop导入至Hive中,Oracle在远程服原创 2016-08-16 21:49:59 · 6294 阅读 · 0 评论 -
《Apache Kylin Web界面汉化》
注意:本教程以对approvalhistory(t表)和t_processapply(t2表)innerjoin为例,描述利用kylin进行OLAP的过程。 1.登录页面①登录:http://168.168.207.3:7070/kylin(其中168.168.207.3为你所安装kylin主机的ip地址,7070为端口号,在浏览器上输入如上地址即可正确跳转到登录地:http://16翻译 2016-08-15 06:13:21 · 7896 阅读 · 1 评论