挖掘是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取潜在且有用的信息的过程。
分析分析处理(On-Line Analytical Processing ,OLAP)
数据分析过程
确定知识发现的目标:确定知识发现的目的。
数据采集:数据采集可以是从网络爬取的数据,也可以是从数据库中直接导出的数据,还可以是常见的CSV文件等数据。数据质量决定挖掘的上限,而算法仅仅是逼近这个上限。
数据探索:可视画(画各种散点图);相关性。
数据预处理:数据处理主要包括数据清理、数据集成、数据规约、数据变换和离散化等几个部分。数据归约——维归约的含义是将原先高维的数据合理地压缩成低维数据,从而减少数据量常用的方法为特征的提取,如线性判别分析(LDA)和主成分分析(Principal Component Analysis,PCA)。LDA是基于有监督的降维,PCA是基于方差的聚类降维,都可以对高维数据进行降维。数据归约技术采用维归约和数据量归约等方式。数据的变换是将原始的特征数据进行归一化和标准化的操作。
数据挖掘(模型选择)算法
视频,骨膜,视频故事对数据挖掘结果的评价,常用的评价指标有精度、召回率等。
数据挖掘的功能与应用领域
电信行业:推荐系统
金融行业:信用卡勘测
医疗行业
社会网络:人的变迁情况
数据挖掘应用面临的问题
数据源的多样性
数据挖掘算法的改进:部分算法就需要基于分布式计算和云计算进行改进。
数据隐私保护:个人隐私被暴露
数据挖掘的模型
数据挖掘任