
大数据
文章平均质量分 82
chszs
这个作者很懒,什么都没留下…
展开
-
认识的误区:Hadoop=云计算
认识的误区:Hadoop=云计算作者:chszs,转载需注明。作者博客主页:http://blog.youkuaiyun.com/chszs时间:2012-12-9最近看到清华大学出版社发行的一本新书,《深入浅出云计算》出版时间是2012-10-01日,如图1所示。我以为这是一本科普型读物,是加深读者对云计算的认识的书籍,毕竟云计算覆盖的领域太广了。泛读后发现完全不是这么回事。全书基本上都是在讲Hadoop以原创 2012-12-09 12:40:15 · 17787 阅读 · 15 评论 -
Spark和Scala的网络资源汇集
Spark和Scala的网络资源汇集作者:chszs,未经博主允许不得转载。经许可的转载需注明作者和博客主页:http://blog.youkuaiyun.com/chszs本文的目的是为Spark和Scala初学者提供一些学习资源。1、Github上的Scala Workshophttps://github.com/airisdata/scalaworkshop2、Setup资源下载Scala 2.11.8原创 2016-04-19 21:08:43 · 4246 阅读 · 3 评论 -
在Ubuntu环境部署Apache Spark集群
在Ubuntu环境部署Apache Spark集群作者:chszs,未经博主允许不得转载。经许可的转载需注明作者和博客主页:http://blog.youkuaiyun.com/chszs1、软件环境本文主要讲述怎样在Ubuntu系统上部署Apache Spark独立集群(Standalone Cluster)的过程。所需的软件如下:Ubuntu 15.10 x64Apache Spark 1.5.12、原创 2015-12-03 22:03:58 · 3903 阅读 · 2 评论 -
用Grafana为Elasticsearch做日志分析
用Grafana为Elasticsearch做日志分析.Grafana是一个开源的、功能强大的指标仪表板和图形编辑器工具,它面向Graphite、Elasticsearch、OpenTSDB、Prometheus和InfluxDB等数据源。目前Grafana的最新版本为2.6版。原创 2015-12-21 17:49:18 · 38380 阅读 · 7 评论 -
Hadoop五分钟入门指南
《Hadoop五分钟入门指南》原文见:http://blog.josedacruz.com/2013/12/09/hadoop-in-5-minutes-for-beginners/#.Uqhs3_Q6Cjt如果你有大量的数据(TB级),而且这些数据到处分散,且有些数据是结构化的,有些数据不是。你想查询这些数据,你或许在想,“我需要力量来组织和查询这些数据”。是的,你需要Hadoop。一、什么是H翻译 2013-12-11 22:21:47 · 3823 阅读 · 0 评论 -
应该在什么时候使用Hadoop
应该在什么时候使用Hadoop作者:chszs,转载需注明。博客主页:http://blog.youkuaiyun.com/chszs有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。他们又问我,“你能使用Hadoop做简单的分组和统计吗?”我说当然可以,我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据原创 2013-09-28 00:49:43 · 10390 阅读 · 5 评论 -
如何让NoSQL内存数据库适合企业级应用
如何让内存NoSQL数据库适合企业级应用作者:chszs,转载需注明。博客主页:http://blog.youkuaiyun.com/chszs英文原文:How to Make Your In-memory NoSQL Datastores Enterprise-Ready对于每一个关注用户体验的Web应用或移动应用而言,基于内存的NoSQL数据存储系统(例如开源的 Redis和Memcached)正逐步成为翻译 2013-10-04 21:51:07 · 5549 阅读 · 0 评论 -
大数据团队必须设置的五种职位
大数据团队必须设置的五种职位作者:chszs,转载需注明。博客主页:http://blog.youkuaiyun.com/chszs麦肯锡认为,大数据团队必须有五种职位:1)数据卫生员(Data Hygienists) - 这些人,确保数据总是干净的、准确的。2)数据探索者(Data Explorers) - 这些人在大数据项目找到你真正需要的数据。3)企业解决方案架构师(Business Solution原创 2013-07-27 18:04:38 · 18126 阅读 · 4 评论 -
大数据的实时处理STORM简介
《大数据的实时处理STORM简介》作者:chszs,转载需注明。博客主页:http://blog.youkuaiyun.com/chszs新技术如社交媒体、电邮、博客、地理信息系统GIS、无线射频识别RFID和智能手机等为基于服务信息构建提供了新的机会。处理大数据常见的方法和框架是Apache Hadoop,它以批处理的方式运行数据处理任务。现在,如果需要实时处理数据和实时显示数据,那这种基于批处理的方式并不原创 2013-07-10 17:02:22 · 16948 阅读 · 0 评论 -
企业如何选择Hadoop
企业如何选择Hadoop作者:chszs,转载需注明。作者博客主页:http://blog.youkuaiyun.com/chszs本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。一、什么是大数据分析工具及技术Hadoop是目前的处理和存储海量数据的最佳工具。Had原创 2012-12-16 15:31:05 · 5134 阅读 · 2 评论 -
数据分析师、数据科学家、大数据专家三个职位的区别
数据分析师、数据科学家、大数据专家三个职位的区别2018.6.11版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在一定的混乱,有些人认为大数据等同于数据科学,另外有些人则认为大数据是数据科学的子集。数据科学已经存在了很长一段时间,而大数据则是相当新的,它源于数据科学。下面是数据分析师,数据科...原创 2018-06-11 22:02:37 · 16977 阅读 · 2 评论