好程序员大数据技术盘点 你都知道吗

本文介绍了大数据的概念及技术,包括数据采集(ETL工具)、数据存取(关系数据库等)、基础架构(云存储等)、数据处理(自然语言处理)、统计分析(多种分析方法)、数据挖掘(分类、聚类等)、模型预测(预测模型等)和结果呈现(云计算等)。

  好程序员大数据技术盘点 你都知道吗, 大数据的概念,指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。

   第一,数据采集

   ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

   第二,数据存取

   关系数据库、 NOSQL、SQL等。

   第三,基础架构

   云存储、分布式文件存储等。

   第四,数据处理

   自然语言处理 (NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

   第五,统计分析

   假设检验、显著性检验、差异分析、相关分析、 T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

   第六,数据挖掘

   分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

   第七,模型预测

   预测模型、机器学习、建模仿真。

   第八,结果呈现

   云计算、标签云、关系图等。

   其实,关于大数据的技术内容远不止以上内容, 欢迎继续关注。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913892/viewspace-2646377/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/69913892/viewspace-2646377/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值