
大数据
文章平均质量分 66
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
代码执行步骤跟踪的研究
导语一部分工作原因,一部分觉得收益低, 没怎么写博客。在做大数据的一些事情,与其是做事,不如是找虐。趁着最近对自己做了点思考,写点总结。内容还没想好,后续再添。原创 2021-02-18 08:54:35 · 238 阅读 · 0 评论 -
开发中定式和套路
导语一部分工作原因,一部分觉得收益低, 没怎么写博客。在做大数据的一些事情,与其是做事,不如是找虐。趁着最近对自己做了点思考,写点总结。内容还没想好,后续再添。原创 2021-02-18 08:53:51 · 287 阅读 · 0 评论 -
大数据开发中数据特征及处理思路点
数据特征原创 2021-01-27 19:04:33 · 211 阅读 · 0 评论 -
大数据开发中遇到的鬼魅魍魉,清除30%以上经验总结
大数据开发中遇到的鬼魅魍魉,清除50%以上经验总结@TOC导语一部分工作原因,一部分懒,一部分觉得没收益,没怎么写博客。在做大数据的一些事情,与其是做事,不如是找虐。大数据这些开源组件与工具,看上去很美好,实际问题多多,受虐多多。趁着最近对自己做了点思考,写点总结。内容还没想好,后续再添。小鬼山鬼音狱鬼毒鬼鬼城主红邪鬼蛊之鬼炼狱鬼鬼城主宝仙鬼宝塔巨鬼死神鬼...原创 2021-01-25 21:33:40 · 242 阅读 · 2 评论 -
Apache atlas 的入门教程
笔者最近参加了2场大数据技术开放活动,在技术分享的时候,发现,2场分享活动,有人不约而同的推荐了Apache atlas 组件,所以,就像介绍一下这个组件。Apache atlas 是个什么样的工具?它有哪些功能和作用?其实,在本人之前的文章中有介绍,它是一个用在hadoop上的数据治理和元数据框架工具。它是基于hadoop平台上,能无缝对接hadoop平台的组件。前端UI默认使用solr5,...原创 2018-04-14 21:09:20 · 45973 阅读 · 10 评论 -
大量csv数据的查询和计算的技术实现路径分析(1)
在工作中,会有处理很多数据的场景。比如,用户需求:我有大量数据,(1)我想要高效查询我想要的数据。(2)我想要高效计算出我想要的结果数据。为了存储数据,我们使用的数据存储方式有:mysql,oracle,表;csv文件excel文件hdfs文件系统hbaseredis,ehcache把数据从存储区拿出来作分析,我们使用的数据分析手段有:jav...原创 2018-04-14 12:23:01 · 2211 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(1)
spark读写hbase,先写一下hbase的常用操作方式.hbase建表:create 'hbase_test_table', 'info', {NAME=>'info', SPLITALGO => 'HexStringSplit', REPLICATION_SCOPE =>0}, SPLITS => ['S0','S1','S2', 'S3', 'S4'...原创 2018-03-18 23:23:39 · 1569 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(2)
接着上一篇, 问题(2):scan有scan.setCaching(10000)scan.setCacheBlocks(true)等设定.setCaching ,个人感觉不够用.hbase 默认是在内存里面放一块数据用来读取,所以读取效率比较高,可是,其余大部分数据还是在硬盘中,这个内存数据块的设定和意义,待清晰研究.单节点hbase的写入效率,有人粗估计,在3万-5万,这个...原创 2018-06-21 21:35:19 · 2122 阅读 · 0 评论 -
处理大量csv数据和模型数据有关大数据组件选型的例子分析
大数据技术对处理大批量数据和在分布式计算上,较传统技术优势明显。那么,借大数据技术在处理航空数据上是否有用武之地?本文接下来讨论使用大数据组件来处理航空数据。航空数据有的数据以csv文件格式存储,统计分析航空数据有很多潜在价值,尽管有可观的分析价值,但这里仍跟大数据技术扯不上关系。所以,笔者准备从案例的角度,来尝试讨论下自己的观点。案例一假设一个航空公司的某业务一天生成100个...原创 2018-06-21 21:55:47 · 2722 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(一)
spark调优是一个头疼的事,这个疼在什么地方呢? (1)spark将内部几乎完全封装,类似黑箱,不了解内部机理; (2)spark 调优参数众多,参数之间关联很多; (3)spark运行在集群上,本地调试功能有限。...原创 2018-07-16 11:39:44 · 854 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(二)
待更新原创 2018-07-30 08:58:13 · 436 阅读 · 0 评论 -
使用JMC工具对spark 程序调优(三)
待更新原创 2018-07-30 08:59:09 · 475 阅读 · 0 评论 -
hadoop复习
hadoop复习原创 2018-11-14 12:33:44 · 357 阅读 · 0 评论 -
spark复习2
包含spark开发流程和常用技术代码原创 2018-12-04 21:25:12 · 338 阅读 · 0 评论 -
使用Spark rdd 开发spark程序
文章目录1.常用的rddrdd的输入和输出,scala版,java版每个rdd函数的使用场景特殊rdd的使用选择reduceByKey,groupByKey,的使用选择collect,count的使用选择总结1.常用的rdd函数说明map(func)返回一个新的分布式数据集,由每个原元素经过func函数转换后组成filter(func)返回一个新的数据集,由经过f...原创 2019-05-30 12:01:13 · 432 阅读 · 0 评论 -
通过jupyter远程编写代码,并远程提交到spark集群执行
几个月前折腾了一番jupyter(web 代码编辑器),感觉jupyter在编写某些科学文章是比较灵活.不过几乎是单机版的,在生产环境应用有限.之前因为需要在集群上执行编辑的代码,遂查找资料,又折腾了一番,使得jupyter可以应用于集群环境.我们的需求类似使用者可以写点简单的程序,然后在集群上面执行代码. 程序是python语言的.所以,集群是pyspark集群.在spark包下面,会有pysp...原创 2018-03-03 18:08:32 · 6184 阅读 · 1 评论 -
Elasticsearch+hbase 实现hbase中数据的快速查询(一)
之前虽做了solr-hbase构建二级索引以及快速查询,但是考虑到以后生成的数据可能会很多,一旦到了亿级以上,solr查询效率会渐渐慢下来.老板不满意,又听了几位专家的建议,采用Elasticsearch+hbase 来实现hbase中数据的快速查询.首先,安装Elasticsearch. CDH中没有集成Elasticsearch,所以只好独立安装. 1.下载elasticsearch-...原创 2018-03-03 15:33:56 · 7912 阅读 · 0 评论 -
spark常见操作系列(2)--spark读写hadoop
真正开发大数据之前,本人折腾过hadoop,spark组件,其中把之前公司的日志放到hadoop 和hive里面去读写.但实际上,真正开发spark程序,遇到的坑,是十分多的.本篇主要介绍spark读写hadoop.hadoop的读写,有java方式,也有scala方式. 虽scala可以嵌入java代码,并不意味着直接把java 操作工具类放到scala程序就行了. hadoop 一般...原创 2018-03-10 19:14:58 · 3083 阅读 · 0 评论 -
centos7.2(linux)+spark2.1.0安装
centos7.2(linux)+spark2.1.0安装介绍下spark在Linux上的安装.原创 2017-07-02 22:56:04 · 963 阅读 · 0 评论 -
win10+Ecplise运行wordcount程序
win10+Ecplise运行wordcount程序(1)hadoop.dll下载http://download.youkuaiyun.com/detail/chenxf10/9621093原创 2017-06-22 22:40:38 · 858 阅读 · 0 评论 -
win10 64位+Eclipse mars 4.5.1+hadoop2.7.3开发环境搭建
win10 64位+Eclipse mars 4.5.1+hadoop2.7.3开发环境搭建原创 2017-06-22 21:01:16 · 2946 阅读 · 1 评论 -
hadoop2.7.3分布式集群问题汇总(持续更新)
hadoop2.7.3分布式集群问题汇总(持续更新)原创 2017-06-22 16:47:25 · 427 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(四)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(四)下面统计下访问次数最高的ip.原创 2017-06-30 17:41:15 · 417 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(三)
这次把日志记录中某些特定的访问ip区分出来.比如101.226.93, 112.17.244, 218.26.54开头的ip区分放到另一个输出文件里面.这次样本数据还是以那个1万条日志,2.5M大小,以这个作为统计样本。见文章:http://blog.youkuaiyun.com/cafebar123/article/details/73928303(1)统计每个访问ip出现的次数,这个不说了,原创 2017-06-30 16:54:56 · 356 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(一)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(一)米骑 app 共享单车平台原创 2017-06-24 19:27:07 · 805 阅读 · 0 评论 -
spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别
spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...原创 2018-03-10 16:57:16 · 2141 阅读 · 0 评论 -
solr-hbase二级索引及查询解决方案(二)
上一篇搭建了hbase的二级索引功能,只要hbase中有写数据,其就会自动的增量同步索引. 接下来是根据索引查询hbase中数据. 实测,查询索引数据,确实相当快,main方法测试,7200条数据,只需要1秒.查询hbase数据,同样数量数据,25个列,用了5秒,之前我们在3台集群上测试hbase查询,1万条,用了3秒,这里应该还有提升空间. 一般情况下,如果设置分页,那么这种速度是够用的,...原创 2018-02-28 22:27:12 · 559 阅读 · 0 评论 -
solr-hbase二级索引及查询解决方案(一)
最近要搞一个查询功能,是把hbase中的数据方便的查询出来.之前根据rowkey的查询方式,尽管有针对性设计过rowkey,有前缀查询,后缀查询,以及正则查询,但是实际上不够用. 参考了网络上的设计,建立二级索引是比较好的思路.于是就以solr存储hbase里面的列索引,实现了这个功能.需要的组件有: 1.hbase 2.solr 3.key-value store indexer ...原创 2018-02-28 21:41:50 · 4408 阅读 · 2 评论 -
Elasticsearch+hbase 实现hbase中数据的快速查询(三)
前2篇介绍了Elasticsearch的安装和工具类,虽然这样能用,但是还留有几个问题,对此有些困扰.多条件查询 工具类里面有个get精确查询和search搜索,但是那个只用来查询单一条件,如果查询界面上需要查询多个条件,那这个显然不够用.在网络上搜索了半天,发现没有比较好的java写的api参考,觉得有些奇怪,难道这种场景不常见吗? 官方文档中,有类似搜索api,比如MultiSear...原创 2018-03-07 23:15:16 · 8315 阅读 · 3 评论 -
hive对电商用户订单行为特征分析(二)
hive对电商用户订单行为特征分析原创 2017-08-16 08:54:45 · 2716 阅读 · 0 评论 -
spark对电商用户订单行为特征分析(一)
最近在整理spark技术的应用,觉得 行为特征归类, 相似产品或相似功能推荐 这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/案例主要要求如下:对文本文件形式的原始数据集进原创 2017-08-11 18:47:53 · 4174 阅读 · 0 评论 -
jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目
Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目hadoop2.7.3 wordcount hadoop开发环境原创 2017-06-23 22:33:10 · 2024 阅读 · 0 评论 -
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(二)
maven3.5+hadoop2.7.3统计米骑测试日志KPI指标(二)前面粗略统计了某些接口的pv,下面统计下ip的访问次数,并按次数从大到小显示出来.仍以那个1万条日志,2.5M大小,以这个作为统计样本。原创 2017-06-30 15:39:17 · 466 阅读 · 0 评论