
DB-大数据
文章平均质量分 95
大数据
猿来这样1
编程圈子,谢厂节的博客
展开
-
大数据学习——常用的数据分析法和模型
产品的基本数据指标新增:日新增、月新增活跃:如日活跃(DAU)、月活跃(MAU)等留存率:用户会在多长时间内使用产品,如:次日留存率、周留存率等传播:平均每位老用户会带来几位新用户流失率:一段时间内流失的用户,占这段时间内活跃用户数的比例地域分布使用时长分布常见的数据分析法和模型直方图(频率分布)分析将某参量的数值范围等分为若干区间,统计该参量在各个区间上出现的频率,并用矩形条的长度原创 2017-03-18 15:12:17 · 56777 阅读 · 3 评论 -
大数据学习——过滤及推荐常用算法简介
一、过滤算法Bloom-Filter算法简介即布隆过滤器,1970年由Bloom提出,它可以用于检索一个元素否在一个集合中。它是一种空间效率很高的随机数据结构,它利用数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的概率算法。BF有可能出现错判 ,但不会漏掉判断。因此它适合那些“零错误”的应用场合。Bloom-Filter的基本思想是利用我个不同的Hash函数原创 2017-06-19 15:12:14 · 4487 阅读 · 0 评论 -
大数据学习——Hadoop平台及相关生态系统
*2006年8月9日,谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”(Cloud Computing)概念。 2006年之前谷歌发表了3篇经典的论文,分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架(MapReduce)。分布式文件系统GFS谷歌文件系统简称为GFS,文件大小可以达到TB级,甚至是数百TB。Hadoop的文件系统HDFS正是借原创 2017-03-12 18:34:30 · 1143 阅读 · 0 评论 -
大数据学习——Sqoop入门使用
Sqoop概述Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 架构示意图:Sqoop整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。网址:http:/原创 2017-04-10 15:08:47 · 2432 阅读 · 0 评论 -
大数据学习——Ambari
Ambari一、项目简介Ambari也是Apache的顶级项目。主要用来创建、管理、监视Hadoop集群(如Hive,Hbase,Sqoop,Zookeeper等) 项目地址:http://incubator.apache.org/ambari/ Ambari自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server和Ambari Agent。用户通过Ambari Server通原创 2017-05-08 17:12:09 · 1192 阅读 · 0 评论 -
大数据学习——Flume介绍与安装
Flume实验环境: shiyanlou - CentOS6.6 64 - JDK 1.7.0_55 64 - Hadoop 1.1.2Flume 介绍Flume是Cloudera提供的日志收集系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠原创 2017-04-20 21:07:05 · 940 阅读 · 0 评论 -
大数据学习——HBase 入门
HBase学习环境shiyanlou 《HBase介绍、安装与应用案例》 - CentOS6.6 64位 - JDK 1.7.0_55 64位 - Hadoop 1.1.2Hbase 介绍HBase ——Hadoop Database,是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google原创 2017-04-19 22:16:35 · 5581 阅读 · 0 评论 -
大数据学习——Mahout入门
实验环境:shiyanlou CentOS6.6 64 JDK:1.7.0_55 64 Hadoop:1.1.2简介Mahout是Apache旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的宾实现,帮助开发人员快捷地创建智能应用程序。 Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。环境搭建下载http://archive.apache.org/dist/maho原创 2017-04-19 08:37:54 · 1573 阅读 · 0 评论 -
大数据学习——数据处理工具Pig入门使用
简介Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转为一系列经过优化处理的MapReduce运算。特点专注于大量数据集分析运行在集群的计算架构上,Yahoo Pig提供了多层抽象,简化并行计算让普通用户使用,这些抽象完成自动把用户请求queries翻译成有效的并行评估计划,然后在物理集群上执行这些计划;原创 2017-03-29 15:47:32 · 6567 阅读 · 0 评论 -
大数据学习——NoSQL分布式数据库综述
本文学习内容来自《大数据革命——理论、模式与技术创新》 电子工业出版社传统的关系型数据库数据仓库在面对大数据的处理地显得越来越力不从心。在这样的背景下,NoSQL数据库应运而生。CAP理论2000年美国加州大学伯克利分析的Eric Brewer教授提出了CAP理论,即一个分布式系统不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition To原创 2017-03-13 13:37:26 · 4831 阅读 · 0 评论 -
大数据学习——数据挖掘理论基础
本文学习来源于《数据挖掘理论与技术》(电子工业出版社)数据挖掘概述数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。从研究的历史看,它们是数据库、人工智能、数理统计、计算机科学以及其它方面的学者和工程技术人员,在数据挖掘的探讨性研究过程中创立的理论体系。1997年,Mannila对当时流行的数据挖掘的理论框架做出了综述。结合最新的研究成果,有下面一些重要的理论框架可以原创 2017-03-12 17:52:02 · 4381 阅读 · 0 评论 -
大数据实战——微博舆情大数据分析
优快云 直播课程学习笔记云端实验室 基于开源的ambari大数据平台,部署了7个节点: 背景 企业可能对用户在微博上的评价内容有监测需求,如活动效果、用户对产品的评价,用户关注于产品的价格还是功能等等。本平台用来获取微博的数据(数据量大、非结构化数据),进行数据分析,存储在云平台,将结果输出给企业。项目架构数据源微博数据: 数据层本次数据层...原创 2018-07-05 19:55:51 · 25156 阅读 · 2 评论