
大数据
Keep-Up
这个作者很懒,什么都没留下…
展开
-
Hbase的安装和基本使用
Hbase介绍HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。Hbase安装安装环境三台虚拟机:mast...原创 2018-11-16 15:46:19 · 268 阅读 · 0 评论 -
Flume的介绍和简单操作
Flume是什么Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume的功能支持在日志系统中定制各类数据发送方,用于收集数据提供对数据简单处理,并写到各类数据接收方(可定制)的能力Flume...原创 2018-11-16 15:47:34 · 246 阅读 · 0 评论 -
学习笔记—MapReduce
MapReduce是什么MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠、高容错的方式在大型集群上并行处理大量数据。MapReduce的存储MapReduce的数据是存储在HDFS上的,HDFS也是Hadoop的主要组成部分之一。下边是MapReduce在HDFS上的存储的图解HDFS主要有Namenode和Dat...原创 2018-12-07 23:38:52 · 173 阅读 · 0 评论 -
TF-IDF介绍
TF-IDF是什么TF-IDF是一种统计方法,用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的使用场景TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结...原创 2018-12-09 15:04:31 · 851 阅读 · 0 评论 -
LCS详解
LCS是什么LCS是Longest Common Subsequence的缩写,即最长公共子序列。一个序列,如果是两个或者多个序列的子序列,并且是所有子序列中最长的,则为最长公共子序列。(有序但不连续也为子序列)序列 13456 和 345674 的最长公共子序列为 3456序列 ABDBC 和 BCDBA 的最长公共子序列为 BDBLCS可以用来做什么生物学上用来进行基因序列比对...原创 2018-12-12 00:27:49 · 2480 阅读 · 0 评论 -
推荐算法——基于内容的推荐CB
推荐系统不仅可以有效地帮助用户发现高质量的适合自己的信息,另一方面也帮助应用和商家增加用户的使用时长,更好的留住用户。推荐系统越精准,用户的体验更好,商家获得的回报越大。所以这也是推荐系统应用越来越广泛的主要原因。现在我们的生活和学习中处处都可以看到推荐系统的应用,比如我们打开百度首页,就可以看到给我们推荐的新闻热点。比如我们打开优酷看视频的时候还有微博,今日头条,抖音,京东,淘宝等...原创 2019-01-06 18:13:09 · 1483 阅读 · 0 评论 -
推荐算法——基于协同过滤CF
前边我们已经介绍了推荐算法里的基于内容的推荐算法CB,今天我们来介绍一下基于协同的推荐算法Collaboration Filtering(CF)。协同过滤是一个利用群体智慧的一个算法,举一个简单的例子,如果放假了你想去北京玩几天,但是不知道北京都有哪些好玩的,你会怎么做?你可能会上网查一下网友的推荐,也可能会咨询一下曾经去过北京的亲朋好友,最后你很可能会采纳你好朋友的推荐。因为你的好朋友和你相似的...原创 2019-01-06 18:25:16 · 419 阅读 · 0 评论 -
朴素贝叶斯算法&应用实例
朴素贝叶斯朴素贝叶斯中的朴素是指假设各个特征之间相互独立,不会互相影响,所以称为朴素贝叶斯。正是因为这个假设,使得算法的模型简单且容易理解,虽然牺牲了一点准确性,但是如果模型训练的好,也能得到不错的分类效果。朴素贝叶斯公式:P(yi,X)=P(X,yi)P(yi)P(X)=Pyi∏P(xi,yi)P(X)P(y_i,X)=\frac{P(X,y_i)P(y_i)}{P(X)}=\frac{...原创 2019-01-24 21:56:27 · 4353 阅读 · 0 评论 -
推荐系统-Item Based CF实例
前边我们已经简单介绍了基于内容的推荐系统CB和基于协同过滤的推荐系统CF,今天我们就来看一个基于协同过滤中的基于物品的 Item Based CF 的一个实际实例来帮助大家更好的来了解和掌握以前的知识。下面我们来看看我们的元数据,数据很简单,每一行由userId(用户ID)、itemId(物品ID)、score(用户打分)组成,之间用”,“分隔。我们计算的时候用下边这个相似度计算公式,这个公...原创 2019-01-15 23:15:45 · 1297 阅读 · 0 评论