
大数据
文章平均质量分 60
Jameslvt
这个世界非常多样,自我实现的方式也绝不止哪一种。我们每个人都不一样,永远不要试图成为他人,那是妄念。我们唯一能做的,就是看清自己并努力成为更好的自己,这条路永远都不会错。
展开
-
基于MapReduce的TFIDF的编码
一.概念首先大家需要知道什么是TFIDF,TFIDF是一个计算相似度的TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库...原创 2018-07-10 14:22:34 · 1209 阅读 · 0 评论 -
Pycharm(自动生成开头两行代码)
我们在写Python程序时,有两行代码总是重复的。12#!/usr/bin/env python# -*- coding:utf-8 -*- 如何在使用Pycharm时自动帮我们生成这两行代码呢直接上图原创 2018-07-13 21:38:36 · 1564 阅读 · 1 评论 -
jieba分词未登录词的Viterbi算法源码解析(二)
上篇文章已经介绍过如何DAG构建路由,那么接下来说一下对于未登陆词,结巴分词是如何实现分词的,这里就要用到以前说的HMM隐马模型,不知道的话可以看下我的文章:https://blog.youkuaiyun.com/jameslvt/article/details/81087649 ,这篇文章说的很清楚,也介绍了基本的Viterbi算法,另外在上篇文章不是说过一个为什么采用从后往前这种方式计算呢?因为,我们这个...原创 2018-07-20 11:38:25 · 2631 阅读 · 0 评论 -
推荐算法之CB,CF算法
初学推荐算法,以下是我的一些见解,如有不对请留言,后续还会更新,这个优快云太坑了,写了快一个下午的文章,发表了,结果没保存,神坑。。。。。首先我们来明确一下,推荐系统主要是干什么用的:毋庸置疑,在这么一个信息爆炸的时代,许多信息过载或是过剩,那么我们不可能把全部给看一遍,这里我们就用到推荐系统,那么推荐系统是给用户推荐自己想看的一些视频新闻或是购物的物品等等,或许可能理解的有点片面,但是基本...原创 2018-07-21 14:28:35 · 9653 阅读 · 0 评论 -
推荐算法之CB,CF的实现
上篇我们分析了CB,CF算法的原理,这里我们补充一下推荐系统的推荐场景的流程图:从推荐场景的流程图中,我们可以看到,最重要的部分就是这个索引库怎么计算得到,当然,不同的算法之间的实现方式不一样,首先我们来说一下CB算法,CB算法的实现主要是基于用户的历史行为(引入用户属性 CB)和用户当下购买的物品(引入item属性)进行推荐,主要的实现方法是正排—》倒排索引式的实现方法,那么接下来我们来...原创 2018-07-30 10:22:07 · 4714 阅读 · 3 评论 -
Redis 安装过程说明
1.首先我们通过linux命令下载redis包,这里说明一些wget命令,wget 指定目录 ipwget /usr/local/src/ http://download.redis.io/releases/redis-2.8.3.tar.gz2.下载好后我们解压:3.接下来我们初始化,fomat,在redis目录下执行make,但是会发现有这个错误:这个提示cc:未找...原创 2018-07-22 00:16:51 · 686 阅读 · 0 评论 -
python 中导入redis模块
当大家遇到执行python脚本遇到如下问题的时候:这个问题说明是python没有导入redis包我们先下载redis包,这个包我已经上传,大家可以下载下来,下载好以后,我这里放倒/usr/local/src,目录下,解压解压好了后,进入到该目录:执行安装包命令:python setup.py install 执行完成后,我们在平台验证一下:不报错即可...原创 2018-07-22 17:44:01 · 2541 阅读 · 1 评论 -
分类算法-NB(NaiveBeyesian Classification)分类器及AUC效果评估
在整个机器学习领域,有很多算法,除了与业务相关的推荐算法,还有分类,回归,聚类算法。其实,回归算法中也有类似分类算法,回归算法在机器学习中就是为了解决分类问题。至于这个分类模型有什么用,我们在机器学习过程中:定义一个对象X,将其划分到定义的某个类别Y中,输出是某个类别,例如新闻类,军事类这里分类我们说一下,分类中有二分类(邮件垃圾邮件)、多分类(网页分类),那么分类算法解决的流程...原创 2018-07-31 21:36:28 · 6194 阅读 · 2 评论 -
python 安装 Anaconda 以及 Linux 安装可视化图形界面
1.首先安装界面之前需要安装Anaconda,这里自己看自己想要哪个版本,我是装的高版本,能切换到低的版本wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.0-Linux-x86_64.sh2.然后我们需要安装一个插件 yum -y install bzip23.安装Anaconda...原创 2018-08-02 00:40:07 · 5387 阅读 · 0 评论 -
基于CB,CF,LR算法的推荐系统实现
在开篇之前,我们先来说下上次CB,CF算法实现粗的推荐系统,我们知道,CB,CF算法只是在召回阶段使用,这种推荐出来的item毕竟是粗排的,这篇文章正是对上图画上一个圆满的句号,将CB,CF召回回来的item进行精排,然后选择分数最高,给用户推荐出来,那么,问题来,我们怎么来做这个精排,这里就要提出一个新的算法LR算法,所以,在说系统实现之前我们先来说说LR逻辑回归的知识点,这里就是简单的过一...原创 2018-08-11 00:31:09 · 8632 阅读 · 11 评论 -
Hadoop集群工作台查看日志报错问题及解决办法
我们在hadoop集群一般需要在工作台查看日志,但是工作台查看日志一般会出现以下情况:上面的原因是由于yarn的日志监控功能默认是处于关闭状态的,需要我们进行开启,开启步骤如下:一、在yarn-site.xml文件中添加日志监控支持该配置中添加下面的配置: <!-- 开启日志聚合 --> <property> ...原创 2018-08-13 17:14:58 · 5646 阅读 · 2 评论 -
学习资料整理,一起学习
所有学习的资料网站:https://mooc1-1.chaoxing.com/nodedetailcontroller/visitnodedetail?courseId=201020838&knowledgeId=124817327 算法学习视频:https://pan.baidu.com/s/1aTVVP59qWJ-wwFxHZ4PqDA#list/path=%2F ...原创 2018-08-24 14:35:09 · 2587 阅读 · 0 评论 -
spark集群模式调试以及远程配置
最近学习spark,在本地模式跑完程序,想再去集群上面测试,但是发现一直报下面错误:java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/ObjectRef; at CF$$anonfun$3.apply(CF.scala:33) ...原创 2018-08-29 11:49:59 · 3190 阅读 · 2 评论 -
Hive web 端配置HWI配置
1.当初我们安装hive的时候是apache-hive-1.2.2-bin.tar.gz,这时候我们需要下载另外一个web端的配置包hive apache-hive-1.2.2-src.tar.gz,下载地址:http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/2.接下来我们需要解压目录,然后,进入到该目录里面 /usr/local/src/ap...原创 2018-09-01 14:40:28 · 636 阅读 · 0 评论 -
pySaprk,pycharm编写spark的python脚本,远程上传执行和本地模式执行
上次,我们用scala来编写来spark,这次我们用python来写spark脚本,我们在上篇博客中说过,spark的版本是2.2.0,scala的版本是2.1.x,这样我们在集群中,由于spark的版本,没有办法使用pySpark wordcount.py 来执行脚本,只能使用spark submit wordcount.py来执行脚本,在Linux环境是这样执行的,但是我们写脚本,可以直接在L...原创 2018-08-30 10:43:08 · 5342 阅读 · 3 评论 -
数据库中Explain 执行过程的查看
因为最近看Hive ,Hive 其实就是MapReduce的封装,基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据查询进行查询,统计和分析,这个过程是一个MR过程,我们如何能够通过查看执行sql的过程来查看MR这个过程,从而做到后续的一些优化之类的。使用EXPLAIN 了解Hive是如何工作,第一个就是需要了解EXPLAIN功能我们在hive shell 下面输入EXPL...原创 2018-09-06 14:43:39 · 943 阅读 · 0 评论 -
Apache Kafka的界面管理工具 - Kafka-manager
Kafka Manager 由 yahoo 公司开发,该工具可以方便查看集群 主题分布情况,同时支持对 多个集群的管理、分区平衡以及创建主题等操作。源码托管于github:https://github.com/yahoo/kafka-manager开始部署:第一步:上传Kafka-manager安装包并且解压rz上传kafka-manager-1.3.3.17.tar.gz到 /export/so...原创 2018-07-13 21:37:36 · 5657 阅读 · 0 评论 -
jieba分词流程及部分源码解读(一)
首先我们来看一下jieba分词的流程图:结巴中文分词简介 1)支持三种分词模式:精确模式:将句子最精确的分开,适合文本分析全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义搜索引擎模式:在精确的基础上,对长词再次切分,提高召回 2)支持繁体分词 3)支持自定义词典 4)基于Trie树结构实现高效的词图扫描,生成句子汉字所有可能成词情...原创 2018-07-19 17:08:53 · 2901 阅读 · 3 评论 -
pycharm在windows上创建项目代码运行失败问题
1.在windows上pycharm开发完成代码后,同步到linux上发现,都是报错,仔细查看代码,并没有错,原因就是文件格式不对。 解决办法就是修改pycharm配置: file-setting下 左侧code style line separator下拉选择unix就可以了 具体情况请参考:https://www.cnblogs.com/sunface/p/5145315.html...原创 2018-07-06 11:55:20 · 1086 阅读 · 0 评论 -
数据结构与算法:动态规划之LCS最长公共子序列
什么是最长公共子序列:一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序 列这里通过具体的例子来进行分析:给定两个字符串A和B,返回两个字符串的最长公共子序列的长度。例如,A="1A2C3D4B56”,B="B1D23CA45B6A”,”123456"或者"12C4B6"都是最长公共子序列。给定两个...原创 2018-07-17 14:27:31 · 605 阅读 · 1 评论 -
Hadoop集群搭建
原创 2018-07-04 15:26:59 · 278 阅读 · 1 评论 -
隐马尔科夫模型-HMM和Viterbi算法
由于最近初学,故写下此笔记我们在讲解隐马模型之前,先了解一下马尔科夫模型:每个状态只依赖之前有限个状态:N阶马尔科夫:依赖之前n个状态 1阶马尔科夫:仅仅依赖之前一个状态马尔科夫模型重要的三类参数:状态 初始概率 状态转移概率那么其中状态状态转移概率怎么计算得到: p(St+1=l|St=k)=l紧跟k出现的次数/k出现的总次数,我们可以这样理解:转移概...原创 2018-07-17 20:41:36 · 1526 阅读 · 1 评论 -
Hadoop集群,报java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
跑任务先生,在Hadoop的集群,报错误:了java.lang.RuntimeException:PipeMapRed.waitOutputThreads():子与代码1未能 在org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:322) 在org.apache.hadoop....原创 2018-07-05 12:53:53 · 2319 阅读 · 0 评论 -
Hadoop 中MapReduce的排序理解
先生中一共有三次排序,第一次是在环形溢写缓冲区中进行快速排序,当达到默认阈值80米时写到 溢出文件,第二次是在多个溢出文件进行合并过程的排序中 第三次是在减少获取多个地图产生的多个合并文件时做一次排序 ,整个过程中前一次是快速排序因为在内存中,第二和第三次为归并排序必须明确的一点是:Partiiton只是和分桶有关系,和排序没有任何关系 ...原创 2018-07-05 14:02:28 · 4333 阅读 · 2 评论 -
Hadoop集群经常遇到的问题
1,INFO hdfs.DFSClient:createBlockOutputStream中的异常java.net.NoRouteToHostException 这种一般是由于防火墙原因造成的,关闭防火墙,若是关闭还有这种问题,判断是不是集群换过版本,由于hadoop.tmp.dir该目录下面配置的临时文件没有删除净2,Hbase要求各个主机节点间的时间保持一致,才能启动...原创 2018-07-05 14:10:03 · 360 阅读 · 0 评论 -
学习笔记-MapReduce
推荐系统: 离线层:对海量数据离线计算.MapReduce spark 近线层:利用流式处理对海量数据进行实时加工风暴 online layer:负责在线计算处理,相对简单的逻辑运算.WebPy。一致性哈希算法:为了解决因特网中的热点HostPot问题最基本的海量数据思想:分而治之思想:。按数据量划分传统的哈希:分布式的mysql按流量划分。一致性hash算法:新浪网流量例子按...原创 2018-07-05 14:14:15 · 406 阅读 · 3 评论 -
学习笔记-Kafka
卡夫卡 一种分布式,基于发布/订阅消息系统,数据单位的消息,目标成为一个队列平台,不仅支持离线,还要支持在线卡夫卡把数据往磁盘上写,但是在磁盘上存它的读写速度比内存快,这个依赖于预读和后写功能,但是这个预读和后写必须是按照顺序的方式,若没有顺序的方式优化的话,不存在什么预读和后写。特点:消息持久化(能落到磁盘)通过O(1)的磁盘数据结构提供数据的持久化高吞吐量分布式:扩展能力强多客户端支持实时性...原创 2018-07-05 14:15:26 · 324 阅读 · 0 评论 -
余弦计算相似度度量
相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余弦相似度方法计...转载 2018-07-23 17:56:42 · 9463 阅读 · 0 评论 -
学习笔记-HDFS1.0/2.0
HDFS1.0HDFS 由三个组件构成,完全是两种不同的进程(NameNode,DataNode):NameNode 只有一个,在一个集群上SecondaryNmaeNodeDataNode 在集群上有很多,但是一个机器只有一个1,2属于Master 上,3属于Slave上也叫做work上HDFS(存储)上的各个节点说明:Master 主节点,负责分配用户给的任务,相当于公司的老板Slave 从...原创 2018-07-05 14:16:57 · 1068 阅读 · 1 评论 -
学习笔记-HBASE
Hbase是Apach基金会Hadoop项目的一部分,运行与HDFS文件系统之上,因此可以容错的存储海量稀疏数据特点:高可靠高并发读写面向列可伸缩易构建行存储 优点:写入一次性,保持数据完整性 缺点:数据读取过程中产生冗余数据列存储 优点:读取过程不产生冗余数据,特别适合对数据完整性不高的大数据领域 缺点:写入效率差,保证数据完整性方面差Hbase一张表又一个或多个Hreg...原创 2018-07-05 14:17:44 · 305 阅读 · 0 评论 -
学习笔记-Storm
Strom特点:时效性高,低延迟逐条处理数据没持久化层,支持多语言本地模式,可模拟集群所有功能使用原语(spout和bolts)类似于MapReduce 中的Map和ReduceStorm 启动就没有结束,除非手动kill掉,storm的数据一直在内存中流转,Hadoop适用磁盘作为中间交换的介质Storm :以Tuple为单位组成一条有向无界的流数据Topology,类似MapReduce中的j...原创 2018-07-05 14:22:31 · 290 阅读 · 0 评论 -
学习笔记-Spark
Spark运行模式Yarn有两种:yarn-cluster。适合于生产模式yarn-client。适合于交互和调试mapreduce是多进程的方式来去并发执行,而spark是依赖于多线程的方式来去并发执行cluster和client模式的区别:本质是AM进程的区别,cluster模式下,driver运行在AM中,负责向Yarn申请资源,并监督作业运行状况,当用户提交完后,就关掉client,作业会...原创 2018-07-05 14:23:18 · 301 阅读 · 0 评论 -
学习笔记-Zookeeper
分布式锁服务:一个松散耦合的分布式系统中粗粒度锁以及可靠性存储(低容量)的系统属于Hadoop生态圈中的一个,名字服务器,分布式同步,组服务特点: 数据模型:命名空间只有绝对路径,没有相对路径以/为间隔的路径名序列组成 每个节点自身的信息 数据数据长度开始时间结束时间 具有文件,路径的双重特点节点类型:Persistent Nodes 永久性节点 默认Ephemeral N...原创 2018-07-05 14:25:34 · 300 阅读 · 0 评论 -
学习笔记-Flume
Apache Flume 是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息,从多种不同的数据源到一个集中的数据存储中心(HDFS、HBASE)功能: 支持在日志系统中定制各类数据发送方,用户收集数据 Flume提供对数据进行简单的处理,并写到各种数据接收方的能力框架: 数据发生器 agent 代理模块,对对消息进行接受和汇集,每个agent就是一个守护...原创 2018-07-06 09:43:11 · 295 阅读 · 0 评论 -
带你走进zk的世界
1、Zookeeper的角色 领导者(leader),负责进行投票的发起和决议,更新系统状态。 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票Observer可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的状态,ob...转载 2018-09-25 10:06:10 · 584 阅读 · 0 评论