
大数据
文章平均质量分 60
程序媛-团子
Keep enpowering yourself successfully
展开
-
log4j直接输出日志到flume,并保存到hdfs
1.flume简介 是分布式日志收集系统,用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心(HDFS HBASE) 多种数据源:console、RPC、Text 、Tail、syslog等 2.log4j直接输出到flume-flume配置:a1.sources=r1a1.channels=c1a1.sinks=k1#configure the sour...原创 2018-03-03 11:46:49 · 2438 阅读 · 0 评论 -
gensim使用
一、基本概念 gensim是一个python的自然语言处理库,能够将文档向量化以及建立模型(TF-IDF, LDA, LSI)。 corpora用于构建语料库,models用于构建处理模型,Similarity用于文档相似性比对 顺序:corpora-->models-->Similarity 简单例子: 如:两篇文章,每个文章都是由一句话组成 D1: I am a student. ...原创 2018-06-05 17:06:21 · 1323 阅读 · 0 评论 -
推荐系统记录
最近参加一个推荐系统的开发,博客记录。一、环境使用amberia在四台机器上搭建hadoop大数据平台,项目中使用kafka数据分发,flume将kafka行为数据保存到hdfs。离线任务用spark任务计算一些指标如搜索词热度计算;实时计算共两种:近在线,用于计算每5分钟产生的行为数据;在线计算,当用户发起请求,在线获取该用户的最近的搜索记录,进行基于内容的推荐。结果保存在mysql以及hdfs...原创 2018-05-30 23:29:51 · 289 阅读 · 0 评论 -
spark submit spring boot application
spark不支持使用spring-boot-maven-plugin打包的springboot项目结构,使用以下格式打包: <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-pl...原创 2018-10-19 15:33:28 · 2549 阅读 · 5 评论 -
hadoop组件-yarn
1.hadoop 2.x原型图2.YARN架构YARN概述:YARN是资源调度框架 通用的资源管理系统 为上层应用提供统一的资源管理和调度YARN架构图,也是Master/Slave结构的:从上图中,YARN主要由以下几个核心组件构成:1. ResourceManager, 简称RM,整个集群同一时间提供服务的RM只有一个,它负责集群资源的统一管理和调度。以及还需要处...原创 2018-10-19 19:38:56 · 293 阅读 · 0 评论 -
kafka
一、kafka简介Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下: 以时间复...原创 2018-10-22 11:58:38 · 407 阅读 · 0 评论 -
hadoop生态圈
概念 hadoop生态圈主要分为:资源调度器、计算框架、分布式存储、数据仓库、分布式数据库、分布式协调框架、日志收集工具、消息队列、可视化任务调度器资源调度器yarn是hadoop2.0之后的出现的资源调度器。计算框架常用的计算框架有:mapreduce、spark、storm,其中mapreduce是批量处理,spark和storm是基于内存的流式处理。分布式存储...原创 2019-02-27 16:20:29 · 439 阅读 · 0 评论 -
hadoop生态圈之任务调度器yarn
yarn出现yarn是hadoop2.x后出现负责资源调度,它不仅支持mapreduce的计算,还支持hive、spark等计算框架的计算。yarn组件yarn包含组件:resourceManager、ApplicationMaster、Container、NodeManagerresourceManager: 负责资源调度,与AM进行通信、与NodeManager进行通信。Nod...原创 2019-03-01 09:49:57 · 331 阅读 · 0 评论 -
Hadoop生态圈之mapreduce
概念MapReduce是多进程,进程空间独享,方便对资源的管理,消耗更多的启动时间,时效性不高,适合离线处理,高吞吐。mapreduce是hadoop的批量处理计算框架,主要分为map、reduce过程。map:负责将数据处理为<key,value>形式的数据输出到reducereduce:负责处理map输出的结果工作流程1.从hdfs获取数据。InputForma...原创 2019-03-04 10:08:54 · 449 阅读 · 0 评论