模式识别与数据时代的商业洞察
1. 模式识别的科学根基:贝叶斯定理
模式识别融合了科学与艺术的元素。从历史角度看,其根源基于科学,托马斯·贝叶斯等先驱引领了该领域的研究。贝叶斯于1761年去世,留下两篇未发表的论文,旨在从观察到的结果确定原因的概率。多年后,法国数学家皮埃尔 - 西蒙·拉普拉斯有了类似发现,英国人宣称这是贝叶斯定理的成果。
贝叶斯定理为模式分类问题提供了一种统计方法。该方法要求在任何情况下,量化各种决策之间的权衡,利用概率和与每个决策相关的成本。利用先验知识并观察差异是这一过程的关键。不过,贝叶斯概率理论是纯统计方法,假设潜在概率是完全已知的,能得出理论上的最优决策,但现实世界并非如此简单。
2. 筑地市场的模式分类实例
东京筑地市场每天凌晨四点前海鲜就开始到货,一天会有400种不同的海鲜经过,最终流向街头摊贩或东京最知名的餐厅,拍卖决定了每种美味的去向。东京的鱼市每年处理超过700公吨的海鲜,价值近60亿美元。
在《模式分类》一书中,理查德·杜达以鱼市工人在传送带上对鱼进行分类为例,解释了模式识别的关键方面。假设只有鲈鱼和鲑鱼两种鱼,工人根据鱼的长度、宽度、重量、鳍的数量和形状、头部或眼睛的大小以及整体体型等因素来区分。但也有一些因素会干扰分类,如照明、鱼在传送带上的位置等。
为确保最准确的判断,过程包括捕获图像、分离鱼、进行测量并做出决策。仅依靠长度不能准确判断鱼的类型,因为鲈鱼平均比鲑鱼长,但也有很多反例。因此,选择多个特征(如宽度和亮度)能更有把握地判断鱼的类型。杜达将模式识别定义为收集原始数据并根据模式类别采取行动,识别并非精确匹配,而是理解共性并推断可重复的因素。
超级会员免费看
订阅专栏 解锁全文
1270

被折叠的 条评论
为什么被折叠?



