知识发现、数据挖掘与公共数据利用
1. 知识发现与数据挖掘
1.1 神经网络
神经网络试图将人类大脑模型表示为网络中相互连接的单个神经元集合。它本质上是一组统计运算,通过对神经元的所有输入应用加权组合函数来计算单个输出值,然后将该值传播到网络中的其他神经元。最终,输入值作为初始输入,输出则代表神经网络做出的决策。这种方法适用于分类、估计和预测。
神经网络中的连接以及分配给这些连接的权重是通过训练过程确定的。在训练过程中,使用已知结论的数据集来配置网络,使其“得出正确答案”。有时,为了进行正确的计算,需要对数据表示进行修改。例如,以日期形式表示的历史数据可能需要转换为经过的天数;当寻求离散的“是/否”答案时,连续值结果可能需要四舍五入为 0 或 1。
1.2 管理问题
知识发现和数据挖掘是商业智能(BI)计划的重要组成部分。通过数据挖掘过程,可以研究和回答业务伙伴提出的许多问题。为了保持知识发现过程的高价值,需要考虑以下管理问题:
- 购买还是自建 :几年前,数据挖掘刚被认为是有价值的过程时,市场上可用的数据挖掘工具不多,采用数据挖掘的前沿公司需要聘请工程师构建自己的数据挖掘工具。如今,市场上有大量数据挖掘工具产品,其性能与内部开发的工具相当甚至更好。建议确定适合组织内业务问题的数据挖掘技术,然后购买支持这些技术的工具,并聘请有经验的工程师使用这些工具。
- 数据准备 :使用未针对当前任务进行适当准备的数据会破坏数据挖掘活动的有效性。数据的清洁度不应受到质疑,同时还需要处理和管理单个数据的特性。例如,在涉及聚合、相似度或距离计算的过程中,空
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



