
hadoop
文章平均质量分 75
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
大数据开发中遇到的鬼魅魍魉,清除30%以上经验总结
大数据开发中遇到的鬼魅魍魉,清除50%以上经验总结@TOC导语一部分工作原因,一部分懒,一部分觉得没收益,没怎么写博客。在做大数据的一些事情,与其是做事,不如是找虐。大数据这些开源组件与工具,看上去很美好,实际问题多多,受虐多多。趁着最近对自己做了点思考,写点总结。内容还没想好,后续再添。小鬼山鬼音狱鬼毒鬼鬼城主红邪鬼蛊之鬼炼狱鬼鬼城主宝仙鬼宝塔巨鬼死神鬼...原创 2021-01-25 21:33:40 · 239 阅读 · 2 评论 -
hive对电商用户订单行为特征分析(二)
hive对电商用户订单行为特征分析原创 2017-08-16 08:54:45 · 2699 阅读 · 0 评论 -
spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别
spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...原创 2018-03-10 16:57:16 · 2121 阅读 · 0 评论 -
spark常见操作系列(2)--spark读写hadoop
真正开发大数据之前,本人折腾过hadoop,spark组件,其中把之前公司的日志放到hadoop 和hive里面去读写.但实际上,真正开发spark程序,遇到的坑,是十分多的.本篇主要介绍spark读写hadoop.hadoop的读写,有java方式,也有scala方式. 虽scala可以嵌入java代码,并不意味着直接把java 操作工具类放到scala程序就行了. hadoop 一般...原创 2018-03-10 19:14:58 · 3081 阅读 · 0 评论 -
大量csv数据的查询和计算的技术实现路径分析(1)
在工作中,会有处理很多数据的场景。比如,用户需求:我有大量数据,(1)我想要高效查询我想要的数据。(2)我想要高效计算出我想要的结果数据。为了存储数据,我们使用的数据存储方式有:mysql,oracle,表;csv文件excel文件hdfs文件系统hbaseredis,ehcache把数据从存储区拿出来作分析,我们使用的数据分析手段有:jav...原创 2018-04-14 12:23:01 · 2201 阅读 · 0 评论 -
Apache atlas 的入门教程
笔者最近参加了2场大数据技术开放活动,在技术分享的时候,发现,2场分享活动,有人不约而同的推荐了Apache atlas 组件,所以,就像介绍一下这个组件。Apache atlas 是个什么样的工具?它有哪些功能和作用?其实,在本人之前的文章中有介绍,它是一个用在hadoop上的数据治理和元数据框架工具。它是基于hadoop平台上,能无缝对接hadoop平台的组件。前端UI默认使用solr5,...原创 2018-04-14 21:09:20 · 45922 阅读 · 10 评论 -
记《魅族大数据治理》分享讲座之本人感想分析
昨天参加了魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容,现整理一些如下. 首先,他们整理了一个治理流程,架构图(本人整理,非原版,下文图片亦是如此)如下:然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下: 流程图上面,其中,“主数据管理” 模块是本人根据理解加的,...原创 2018-04-01 11:54:22 · 2876 阅读 · 0 评论 -
大量csv数据的查询和计算的技术实现路径分析(2)-HDFS存储查询探讨2
上一篇讲了java split的使用弊端,虽是字符串处理中一个很小的操作,不过却避不开。接下来,主要探讨HDFS存储查询方面的问题和解决思路。 随着每天的业务运作,每天会生成很多csv文件,目前csv文件存储在hdfs文件系统里面。在使用csv文件数据时,遇到一个问题: 如何高效查询HDFS中的csv数据?基于HDFS文件系统的特性,笔者经由以前的探讨和一些资料,作了一些思考,如图: ...原创 2018-06-21 21:30:10 · 648 阅读 · 0 评论 -
处理大量csv数据和模型数据有关大数据组件选型的例子分析
大数据技术对处理大批量数据和在分布式计算上,较传统技术优势明显。那么,借大数据技术在处理航空数据上是否有用武之地?本文接下来讨论使用大数据组件来处理航空数据。航空数据有的数据以csv文件格式存储,统计分析航空数据有很多潜在价值,尽管有可观的分析价值,但这里仍跟大数据技术扯不上关系。所以,笔者准备从案例的角度,来尝试讨论下自己的观点。案例一假设一个航空公司的某业务一天生成100个...原创 2018-06-21 21:55:47 · 2710 阅读 · 0 评论 -
spark复习
scala 构造方法初始化初探原创 2018-11-14 10:33:30 · 629 阅读 · 0 评论 -
hadoop复习
hadoop复习原创 2018-11-14 12:33:44 · 351 阅读 · 0 评论 -
大数据采集的几点问题的思考
最近去面试,遇到面试官提到了几个关于“数据采集”方面的问题。一般大数据处理流程的共识是:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。其中,数据采集是第一步。有这么几个情况:(1)日志类型的数据采集;(2)接口类型的数据采集;(3)爬虫数据采集;(4)传感器数据采集等等。。当然有别的分类,这里暂...原创 2018-12-04 21:10:52 · 1683 阅读 · 0 评论 -
hive(1.2.2)运行的一些错误(不定期更新)
hive安装的一些错误(不定期更新)原创 2017-07-04 13:48:57 · 1474 阅读 · 0 评论 -
hbase安装
安装hbase要注意版本兼容性.特别Hadoop,hive,hbase 三者如果都要集成的话,三者的版本要对的上.一般是版本越新越好,本文使用的是1.2.6版本.(1)配置hosts(2)下载解压安装包(3)修改 hbase-env.shcd /usr/hbase-1.2.6vi ./conf/hbase-env.sh#set java pathexport JAVA_HOME=/alidata/server/java#set hbase conf pathexport HBASE原创 2017-07-13 10:57:29 · 380 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(三)
这次把日志记录中某些特定的访问ip区分出来.比如101.226.93, 112.17.244, 218.26.54开头的ip区分放到另一个输出文件里面.这次样本数据还是以那个1万条日志,2.5M大小,以这个作为统计样本。见文章:http://blog.youkuaiyun.com/cafebar123/article/details/73928303(1)统计每个访问ip出现的次数,这个不说了,原创 2017-06-30 16:54:56 · 352 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(四)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(四)下面统计下访问次数最高的ip.原创 2017-06-30 17:41:15 · 415 阅读 · 0 评论 -
hadoop2.7.3分布式集群问题汇总(持续更新)
hadoop2.7.3分布式集群问题汇总(持续更新)原创 2017-06-22 16:47:25 · 425 阅读 · 0 评论 -
hadoop2.7运行wordcount程序
hadoop2.7运行wordcount程序原创 2017-06-22 17:54:26 · 418 阅读 · 0 评论 -
win10 64位+Eclipse mars 4.5.1+hadoop2.7.3开发环境搭建
win10 64位+Eclipse mars 4.5.1+hadoop2.7.3开发环境搭建原创 2017-06-22 21:01:16 · 2939 阅读 · 1 评论 -
win10+Ecplise运行wordcount程序
win10+Ecplise运行wordcount程序(1)hadoop.dll下载http://download.youkuaiyun.com/detail/chenxf10/9621093原创 2017-06-22 22:40:38 · 853 阅读 · 0 评论 -
centos7.2(linux)+spark2.1.0安装
centos7.2(linux)+spark2.1.0安装介绍下spark在Linux上的安装.原创 2017-07-02 22:56:04 · 953 阅读 · 0 评论 -
hadoop2.7.3清洗服务器访问日志之partitioner的学习和应用(六)
hadoop2.7.3清洗服务器访问日志之partitioner的学习和应用原创 2017-07-12 18:16:12 · 310 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(一)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(一)米骑 app 共享单车平台原创 2017-06-24 19:27:07 · 803 阅读 · 0 评论 -
hive1.2.2+hadoop2.7.3导入米骑测试日志以及数据优化(五)
hive1.2.2+hadoop2.7.3导入米骑测试日志以及数据优化(五)原创 2017-07-05 22:37:13 · 823 阅读 · 0 评论 -
jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目
Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目hadoop2.7.3 wordcount hadoop开发环境原创 2017-06-23 22:33:10 · 2014 阅读 · 0 评论 -
hadoop进程之间的对应关系和相关概念
hadoop进程之间的对应关系和相关概念hadoop由于是应用于集群,所以进程比较多,且主从服务器上的进程并不完全一样.namenode 和 jobtracker属于master, datanode 和 tasktracker属于slave .SecondaryNameNode 内存需求和NameNode 在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上.转载 2017-07-10 11:32:40 · 563 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(二)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(二)前面粗略统计了某些接口的pv,下面统计下ip的访问次数,并按次数从大到小显示出来.仍以那个1万条日志,2.5M大小,以这个作为统计样本。原创 2017-06-30 15:39:17 · 463 阅读 · 0 评论