hadoop第一天——2. 科技发展带来的挑战 & 3. 大数据时代

探讨科技发展带来的挑战,包括分布式系统概念、海量数据处理方法及大数据时代的4V特征。分析分布式存储与计算,以及大数据分析在互联网、政府、企业和个人领域的应用。

二、科技发展带来的挑战

  • 网站结构的变迁:从单机迈向了高可用,从而引出了分布式概念
  • 海量数据处理的场景
       - 海量数据如何存储:分布式存储
       - 海量数据如何计算:分布式计算
2.1 分布式系统
  1. 概述
    分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。简单来说就是一群独立计算机集合共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。
  2. 特征
  • 分布性:分布式系统中的多台计算机之间在空间位置上可以随意分布,系统中的多台计算机之间 没有主、从之分,即没有控制整个系统的主机,也没有受控的从机。
  • 透明性:系统资源被所有计算机共享。每台计算机不仅可以使用本机的资源,还可以使用分布式系统中其它计算机的资源(包括CPU、文件、打印机等)。
  • 同一性:系统中的若干台计算机可以互相协作来完成一个共同的任务,或者说一个程序可以分布在几台计算机上并行地运行。
  • 通信性:系统中任意两台计算机都可以通过通信来交换信息。
  1. 常用分布式方案
    分布式应用和服务:如分布式服务框架Dubbo
    分布式静态资源:如CDN
    分布式数据和存储:如Apache Hadoop HDFS
    分布式计算:如Apache Hadoop MapReduce
  2. 分布式、集群
    分布式(distributed)是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。
    集群(cluster)是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。
2.2 海量数据处理

分布式存储
分布式计算

三、大数据时代

大数据:针对海量数据的处理(存储和计算)
云计算:硬件资源的虚拟化,为大数据的处理提供计算的硬件资源

3.1 概述
  • 大数据的4V特征:
        - Volume 数据体量巨大
        - Velocity 处理速度快
        - Variety 数据类型繁多
        - Value 价值密度低
  • 相关技术
        - 云技术
            - - 私有云
            - - 公有云
            - - 混合云
        - 分布式处理技术
        - 存储技术
        - 感知技术
  • 相关实践
        - 互联网的大数据
        - 政府的大数据
        - 企业的大数据
        - 个人的大数据
  • 互联网大数据的典型代表
        - 用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)
        - 用户消费数据(精准营销、信用记录分析、活动促销、理财等)
        - 用户地理位置数据(O2O推广,商家推荐,交友推荐等)
        - 互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)
        - 用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)
3.2 大数据分析

大数据分析是指对规模巨大的数据进行分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值