
大数据
文章平均质量分 58
相信光变成光GOAT
其实每一个人都能靠自己的力量变成光的
展开
-
大数据的前世今生
提出大数据:1996年SGI公司的首席科学家John Mashkey提出大数据2001年Gartner在评论中首先定义大数据的三个维度:数据容量,速度和种类。业界把3v扩展到了11V但主要包括Volume,Velocity,Variety和Value大数据概念:指无法在可承受的时间内用软硬件进行捕捉,管理和处理的数据集合,需要新处理模式才能将该数据集合成为具有更强的决策力,原创 2017-09-24 16:35:13 · 1188 阅读 · 0 评论 -
Spark介绍
概念: Spark是一个快速且通用的集群计算平台特点: Spark是快速的 扩充了流行的MapReduce计算模型 基于内存计算的 基于事件驱动,通过线程池复用线程提高性能 抽象出分布式内存存储结构数据,弹性分布式数据集RDD Spark是通用的: ...原创 2018-05-08 20:51:36 · 286 阅读 · 0 评论 -
Kafka介绍
概念: 分布式消息系统,由LinkedIn使用Scala编写,用作LinkedIn的活动流,和运营数据处理管道的基础,具有高水平拓展和高吞吐量。动态扩容是通过zookeeper实现的AMQP协议: 消费者(consumer):从消息队列中请求消息的客户端应用程序 生产者(producer):向broker发布消息的客户端程序 AMQP服务器端(broker):用来接收生产者发送的消息并...原创 2018-05-08 20:53:33 · 297 阅读 · 0 评论 -
FLume概述
概念:FLume是Cloudera提供的一个高可用,高可靠,分布式的海量的日志采集,聚合,传输系统,FLume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。设计目标: 可靠性:end to end(exactly once) Store on failure(数据接收方crash时,...原创 2018-05-08 20:53:50 · 327 阅读 · 0 评论 -
Mybatis
SqlSession的作用: 1.向sql语句传入参数。 2.执行sql语句 3.获取执行Sql语句的结果 3.对事务的控制原创 2018-05-08 20:54:35 · 146 阅读 · 0 评论 -
推荐算法
相似度种类: 余弦相似度 切比雪夫距离 皮尔森系数 杰卡德距离 欧式相似度 曼哈顿距离 基于物品的协同过滤推荐算法(ItemCF) 用户行为与权重 1.点击---1分 2.搜索---3.0分 3.收藏---5分 4.付款---10分 算法思想:给他们推荐那些和他们之前喜欢的物品相似的物品 相似度矩阵X...原创 2018-05-08 20:55:24 · 347 阅读 · 0 评论 -
DataFrame和DataSets概述
产生背景: 它不是SparkSQl提出的,而是早在R,Pandas语言就有了 想提供受众广的API RDD和MapReduce编程门槛高概念:A DataFrame is a Dataset organized into named column(以列(列名,列的类型,列值)的形式构成分布式数据集,按照列赋予不同名称A Dataset is a distributed collecti...原创 2018-05-16 15:41:23 · 958 阅读 · 0 评论 -
SparkSql概述
需要Sql的原因: 1.事实上的标准 2.易学易用 3.受众面大Hive on Sparkshark推出:欢迎,基于spark,基于内存的列式存储,与hive能够兼容缺点:hive ql解析,逻辑执行计划生成,执行计划的优化是依赖于hive的 仅仅是把物理执行计划从mr作业替换为spark作业 hive没有注意线程安全Shark终止以后,产生了两个分词...原创 2018-06-01 22:48:54 · 265 阅读 · 0 评论 -
Spark处理外部数据源
产生背景:1.数据以各种格式存储在系统中2加载和保存数据不容易(Hive和mysql之间)3.数据存在各种类型,不好解析4.转换数据格式5.格式转换6.用户希望方便快速从不同数据源(json,parquet,rdbms),经过混合处理(json join parquet),再将处理结果以特定格式输出。出现时间:Spark Sql1.2出现了外部数据源API...原创 2018-06-01 22:49:32 · 452 阅读 · 0 评论 -
用户行为日志分析概述
用户行为日志分析:Nginx,Ajax日志数据内容: 1,访问的系统属性:操作系统,浏览器等等 2.点击的url,从哪个url跳转过来,页面停留时间 3.访问信息:session_id,访问ip等日志分析的意义: 1.网站的眼睛 2.网站的神经 3.网站的大脑离线数据处理: 1.数据采集 Flume:将web日志写到HDFS 2.数据清洗: 脏数据:Spark,Hive...原创 2018-06-01 22:50:28 · 7396 阅读 · 0 评论 -
Spark调优
1.控制文件输出的大小:coalesce2.分区字段的数据类型调整:spark.sql.sources.partitionColumnTypeInference.enabled原创 2018-06-01 22:51:02 · 470 阅读 · 0 评论 -
hadoop分布式缓存
概念: 在执行MapReduce时,可能mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中。使用DistributedCache方法: 1.在main方法中加载共享文件的HDFS路径,路径可以是目录也可以是文件。可以在路径中末位追加“#”+别名,在map阶段可以使用该别名 String cache="hdfs://10.203.87.5:8020/ca...原创 2018-04-23 19:49:03 · 456 阅读 · 0 评论 -
电商大数据之用户画像
用户画像: 根据你在电商网站上所填的信息和你的行为,可以把一些标签把你描绘出来。描绘你的标签就是用户画像。数据来源: 1.填写的个人资料。 2.如果有不确定的。可以建立模型来判断,比如用户性别如果不填,可以建立性别模型,根据用户行为来判断其性别是什么及概率 3.浏览,点击,购买,签收,评价。关注作用: 可以做分类统计:全国分城市奶爸指数 营销推荐:比如判断到你有小孩,可以...原创 2018-04-18 21:28:27 · 1933 阅读 · 0 评论 -
Sqoop简介
概念:Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.安装:1.解压 2.配置环境变量: ...原创 2018-04-06 21:33:23 · 238 阅读 · 0 评论 -
HDFS文件系统
一.HDFS简介1.进行块存储。 Hadoop1.x默认的block大小:64MB Hadoop2.x默认的block大小:128MB 可以在hdfs-site.xml中设置参数,dfs.block.size 数据块大不适合并行,系统启动加载数据慢2.有两类节点:NameNode和DataNode3.NameNode是管理节点,存放文件元数据。 文件与数据块的映射表 数据块与数据节...原创 2018-03-07 19:34:03 · 344 阅读 · 0 评论 -
hadoop介绍
Hadoop名字由来 作者孩子的棕黄色小象的名称Hadoop简介 开源的,分布式存储+分布式计算平台作用 搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务 搜索引擎,日志分析,商业智能,数据挖掘分布式文件系统HDFSHDFS是GFS的克隆版特点:扩展性,容错性(多副本),海量数据存储将文件切分为指定大小的数据块并以多副本的存储在多个机器上数据切分,多副本,容错等操作对用户是透明的...原创 2018-03-15 12:39:16 · 1587 阅读 · 0 评论 -
大数据概述
大数据基本概念之大数据4V特征 Volume(数据量大) Variety(种类多,数据类型) Velocity(速度快) Value(价值)大数据涉及的技术 数据采集 数据存储 数据处理/分析/挖掘 可视化 大数据在技术结构上带来的挑战 对现有数据库管理技术的挑战 经典数据库技术并没有考虑数据的类别 实时性的技术挑战 网络架构,数据中心,运维挑战...原创 2018-03-14 17:04:18 · 232 阅读 · 0 评论 -
分布式计算框架Mapreduce
概念: Mapreduce是一种编程模型,编程方法,采用“分而自治”思想优点:海量数据离线处理,易开发,易运行。缺点:实时流式计算MapReduce编程模型之执行步骤: 输入一个大文件,通过Split之后,将其分为多个片 每个文件分片由单独的机器去处理,这就是map方法 将各个机器计算的结果进行汇总并得到最终的结果,这就是reduce方法MapReduce的四个阶段: Spi...原创 2018-03-31 15:51:49 · 3022 阅读 · 0 评论 -
用户行为日志分析
用户行为日志生成渠道: Nginx,Ajax记录用户访问行为日志的原因: 网站页面的访问量 网站的黏性 推荐用户行为日志内容:1.访问的系统属性:操作系统,浏览器等等2.访问特征:点击URL,从哪个url 跳转过来的(referer),跳转页面上停留时间3.访问信息:session_id,访问ip(访问城市)用户行为日志分析的意义: 离线数据处理架构: 1.数据采集 ...原创 2018-03-31 15:52:17 · 2162 阅读 · 0 评论 -
hadoop分布式集群搭建
hostname 设置: vi /etc/sysconfig/networkhostname和ip地址的设置 cat /etc/hosts ip地址 主机名各个节点角色分配:huawei:NameNode/DataNode ResourceManager/NodeManagerxiaomi:DataNode NodeManagerbaidu:DataNode NodeManage...原创 2018-04-01 10:33:04 · 170 阅读 · 0 评论 -
前沿技术Spark,Flink,Beam
MapReduce的缺点:1.开发 wordcount程序复杂 只支持map和reduce方法 执行效率低下 以作业连方式串起来执行 打包2.运行速度: map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大 map任务和reduce任务以进程方式运行 一定要求排序(其实有时候不需要) 不适合迭代处理,交互式(数据挖掘)处理,流式处理3.框架多样...原创 2018-04-02 09:20:16 · 3677 阅读 · 0 评论 -
hadoop3.X比hadoop2.x的改进
Common主要改进: Shell script rewrite 过时API删除HDFS改进: 支持erasure编码 支持超过两个namenode 数据均衡 多个服务端口发生变化Yarn改进: YARN Timeline Service v.2 Support for Opportunistic Containers and Distributed Sche...原创 2018-04-02 10:58:53 · 3517 阅读 · 0 评论 -
资源调度框架Yarn
Yarn(Yet Another Resource Negotiator)产生背景 Hadoop1.x时: MapReduce:Master/Slave架构,一个JobTracker带多个TaskTracker JobTracker:负责资源管理和作业调度 TaskTracker:定期向JT汇报节点的健康状况,资源使用情况,作业执行情况; ...原创 2018-03-27 21:12:02 · 307 阅读 · 0 评论 -
Hbase
应用: 海量数据存储(上百亿行,上百亿列) 准实时查询在实际业务场景的应用: 交通 ,金融,电商,移动特点: 单表可以有百亿行,百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常有弹性 HBase是面向列存储和权限控制,并支持独立检索。列式存储,其数据在表中按照某列存储,这样在查询只需要几个字段的时候,就能大大减少读取的数据量。 HBase每一个列的数据...原创 2018-04-04 13:36:43 · 236 阅读 · 0 评论 -
Hive介绍
概念:基于hadoop HDFS之上的数据仓库。 数据仓库是一个面向主题,集成的,不可更新的的,随时间不变化的数据集合,它用于支持企业或者组织的决策分析处理。 定义了类似的SQL查询语言,成为HQL。 Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内键的mappper和reducer无法完成的复杂工作。 ...原创 2018-04-04 23:35:09 · 320 阅读 · 0 评论 -
Scala语言
函数式编程:纯函数(Pure Function):没有副作用。副作用是状态的变化(修改全局变量,跑出异常,I/O异常,调用有副作用函数)引用透明:对于相同的输入,总得到相同的输出。 如果f(x)的参数x和函数体都是引用透明的,那么函数f是纯函数不变性:为了获得引用透明性,任何值都不能变化函数是一等公民:一切都是计算,函数式编程中只有表达式,变量,函数都是表达式高阶函数...原创 2018-06-01 22:51:31 · 443 阅读 · 0 评论