大数据分析现有技术与问题

1、数据仓库方法DW:

    -数据移动过程(ETL)浪费资源、性能;

    -随着数据载入,应用越来越小,受制于数据源

2、数据云:

    -大量数据输入,类型是堆,结构混乱,不可用;

    -按来源,最近原则分发、使用;

    -应用上,异构数据来了后,不知道放到哪里去;

3、Big data:

    -内容无限(海量的数据和海量的流量);

    -无边(边界不清、类别模糊);

4、传统的聚类方法

    -怎么找到数据;类在什么?分界线在哪里?

    -从DB上:ETL技术,分类,并行DB+ETL(OLAP)

    -Google:云(Mapreduce)-SQL方式+存储太慢+读写对硬件要求高+PB级以上时性能与需求矛盾大

    -并行DB+Mapreduce:综合数据生成、排序等;

      1)横向规模扩展-节点无限增加,查询性能下降

      2)纵向关系:异构数据(医疗、交通……),可用性?

5、架构型大数据?

   -如果说大数据是有一个架构的,那么如何在架构上发现数据的分类条件(聚类)、边界、最小集、可用与不可用、弱关系与强关系?


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值