
大数据与机器学习
Alexwym
这个作者很懒,什么都没留下…
展开
-
关系型数据库与NoSQL数据库
一、关系型数据库目前我们常用的数据库一般是关系型数据库,比如Oracle、MySQL、SQL Server。1、定义:基于关系模型(二维表)所提出的一种数据库。实际场景:学生与系的关系如下一个学生必定属于某一个系,因此我们可以把图中学生与系的关系抽象成三个表这三个表所构成的就是一种简单的关系型数据库。当然在现实应用中我们还会对其进行一定的优化。2、ER模型(Enti...原创 2018-10-18 09:20:37 · 1909 阅读 · 0 评论 -
虚拟化技术
提到虚拟化技术,大多数人想起的都是VMware、Virtual Box等这些软件,以为虚拟化技术就是虚拟机。但实际上,这种想法是不太准确的,虚拟化技术是一个很宽泛的概念,VMware、Virtual Box只是基于其中的一种技术来实现的。今天,我们就来了解一下虚拟化技术。一、简介1、虚拟化的定义:指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻...原创 2018-09-14 10:00:17 · 3478 阅读 · 0 评论 -
MapReduce计算模型
MapReduce被广泛应用于日志分析、海量数据的排序、在海量数据中查找特定模式等场景中。一、MapReduce的优势1、可使用编程语言的多样性:map和reduce程序的编写可用Python/PHP/C++/Java等语言2、适用性强:可以在任何安装Hadoop集群中运行同样的程序3、高效性:多台主机一同处理数据。适用于处理大量的数据(这一点有点像是操作系统中程序的并发概念。也可...原创 2018-09-07 17:24:38 · 8458 阅读 · 0 评论 -
在命令行中运行Hadoop自带的WordCount程序
Hadoop集群搭建完之后,接下来就需要开始尝试去使用它啦。我们可以在这个集群上运行Hadoop的“Hello World程序”——WordCount单词计数。这个程序的代码在我们下载安装Hadoop的时候就已经打包下载好了,我们只需要直接去使用就可以了。(一)、启动hdfs进程服务:进入hadoop的目录中:cd Hadoop/hadoop-2.7.7进入相应目录后启动HDFS的进程...原创 2018-09-07 16:24:08 · 21113 阅读 · 3 评论 -
虚拟机太卡的解决方案之一——Xshell的安装使用
虚拟机的运行速度有时很令人崩溃,特别是当我们需要利用虚拟机构建大型集群的时候。前些时候在构建Hadoop集群的时候,由于需要一次性开启多个虚拟机,导致几乎无法在虚拟机界面中进行任何操作(卡得飞起的那种)。于是决定放弃应用界面,使用xshell来远程连接使用Ubuntu虚拟机。一、Xshell安装教程:https://blog.youkuaiyun.com/wangpai_yonghu/article/de...原创 2018-09-07 15:30:59 · 1670 阅读 · 0 评论 -
在Ubuntu18的虚拟机上搭建kaldi
博客主体内容转载自:https://blog.youkuaiyun.com/by21010/article/details/49072699在进行kaldi安装之前我们需要先做一些准备1、虚拟机性能配置内存至少4G(最好给个五六G,4G的话在编译的时候还是很有可能会出现长时间卡顿的现象,如果你的电脑只有4G内存,那就只能买个内存条了)处理器建议给四个,编译速度比较快,差不多半个多小时吧(...转载 2018-09-12 13:31:45 · 1658 阅读 · 2 评论 -
localhost: Error: JAVA_HOME is not set and could not be found.
今天开启 NameNode 和 DataNode 守护进程时出错localhost: Error: JAVA_HOME is not set and could not be found.1但是JAVA环境变量已经配好了,终端输入java -version也会显示版本信息解决方案如下修改hadoop-env.sh (我的hadoop安装在/usr/local/ 目录下)su...转载 2018-09-06 15:36:16 · 6378 阅读 · 0 评论 -
Map和Reduce任务的优化
编程总是围绕着两个问题:“如何完成这个任务”和“如何能让程序运行得更快”因此,相对应的MapReduce计算模型的优化也就集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化1、任务调度两个方面的优化:一是计算方面:Hadoop总会先将任务分配给空闲的机器,使所有的任务能公平地分享系统资源;二是I/O方面:Hadoop会尽量将map任务分配给InputSplit所在的机器,...原创 2018-09-09 09:27:02 · 1502 阅读 · 0 评论 -
Google三大论文(一)——Bigtable:一个分布式的结构化数据存储系统
资源地址(百度云):链接:https://pan.baidu.com/s/14LgPQpjV-IWIepznDpQu3A 密码:k57n。这是某个大神翻译的中文版论文资料。在重新阅读这篇论文的时候,本想对其进行一些提取总结,没想到越写越多。里面涉及到了较多的专业名词以及抽象概念,我加了一些个人注释便于理解。(有些注释是翻译的那个大神加的)。一、应用场景1.处理海量数据:通常是分布在数千...原创 2018-08-13 21:59:46 · 2243 阅读 · 0 评论 -
Hadoop整体框架的介绍
近期在刚搭建完Hadoop集群时感到有点懵。主机中jps后出现的ResourceManager、SecondaryNameNode、NameNode、NodeManager、Jps以及DataNode是什么鬼。为何主机出现六个进程,而从机只有三个。基于这些问题,今天打算对Hadoop的整体框架做一个简单的整理。(如果想深入了解Hadoop的底层构建,最好去阅读一下Google的三大论文。此处附上博...原创 2018-08-15 11:01:25 · 2211 阅读 · 0 评论 -
Ubuntu16.04虚拟机中Hadoop分布式集群构建(一)
一、所需的资源包1.vmwork安装包:链接:https://pan.baidu.com/s/1wtNNyhTVR8TsnM49G0TnSg 密码:e2yz2.Ubuntu镜像:https://www.ubuntu.com/download/desktop/thank-you?country=CN&version=18.04.1&architecture=amd64...原创 2018-08-12 16:44:38 · 946 阅读 · 0 评论 -
JAVA感知机的动态分类实现
最近在了解机器学习方面的相关内容时用Java实现了一个简单的感知机。网上的很多博客在讲解感知机的时候提及了非常多的专业知识,涉及的知识面较广,对小白不是很友好,容易把人给吓跑。因此,今天就想通俗地讲一下感知机的模型,并动手写一个简单的感知机。一、感知机的基本概念在机器学习中,感知机是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出实例的类别(去+1或者-1)。感知机对应于...原创 2018-08-10 11:48:35 · 1494 阅读 · 1 评论 -
kaldi中文语音识别平台的搭建——运行thchs30
kaldi资料的准备:《Kaldi学习笔记(三)——运行thchs30(清华大学中文语料库)》运行kaldi中的自带样例:《Kaldi学习笔记(四)——thchs30中文在线识别》thchs30的主要搭建过程参照以上两篇博客,此处就不再赘述。但是在搭建的过程中可能会出现一些问题,由于kaldi目前网上的资料比较少,很多问题搜不到,都是自己一个坑一个坑地填过来的,因此打算在这里记录一下,提示...原创 2018-09-25 15:12:19 · 2497 阅读 · 0 评论