涂威威:第四范式经验与思考分享

探讨图灵测试背景下的智能标准,解析机器学习发展历程与实际应用案例。覆盖模型建立的全流程,从数据收集到特征工程、模型训练及评估。讨论机器学习面临的六大门槛:建模、数据、特征、算法、适应性和信任门槛,并提出鲁棒性增强和可解释性提升等解决思路。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从图灵测试说起

  • 目标判断机器是否表现出与人等价或 无法区分的智能 
  • 两个基本问题 

   充分性通过图灵测试就是智能 

   必要性通过图灵测试才是智能 

  • • 两个著名变种 

    Feigenbaum test 

    Nicholas Negroponte Test

4b2f519cafd06e14c1d283481e85e80a23e6934c

“人工” 智能发展历史

人工智能的发展经历了三个阶段

4daef5635ca2d65a657183e693e262fac8f312ac

机器学习的经典定义

  • 利用经验改善系统性能 
  • 经验 数据 
  • 机器学习被广泛应用 
  • 搜索与推荐 
  • 生物特征识别 
  • 自动驾驶 
  • 军事决策助手DARPA 

机器学习的成功应用和成本

014d3f1e52b14525674e3f8798426bd3b618326b

除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。

889a788d362037f6fa4732582b5b344c674d0822

典型的机器学习过程

机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。

96cf14c5b64515ee1cdf37a7def3d2048f32206b

机器学习的效果门槛

  •  建模门槛 

   数据门槛 

   特征门槛 

   算法门槛 

  • 模型应用门槛 

  适应性门槛 

  信任门槛 

  数据安全和隐私门槛

建模门槛实际应用中数据和维度的趋势

  • 有效数据的增长 

  数据量???????~????

  • 数据维度的增长 

  宏观维度???→微观维度????~????

30389c4185c7a85fc3e22d0a0a362b5e9c8a784c

建模门槛机器学习模型的趋势

机器学习模型在工业应用中的四个象限

025f8ab8cfe214b634d2bb38a82cc5a375fb4fdd

建模门槛没有免费的午餐 

  • No Free Lunch定理[Wolpert and Macready 1997]
  • 任意两个算法?1和?2 ෍ ??(?? ?|?,?,?1)=෍ ??(?? ?|?,?,?2)  
  • 任意算法包括随机算法在所有问题上的期望性能一样  
  • 不存在通用算法  
  • 但在具体的实际问题上有可能存在比其他算法好的算法  
  • 需要针对不同的实际问题研究开发不同的机器学习算法

适应性门槛面对开放世界

  • 数据分布变化  

  迁移学习  

  Importance Sampling  

  • 与环境交互、新训练样本  

  强化学习  

  • 新训练目标  

  迁移学习  

  • 样本属性含义变化

e2a5d7f932279816d58acc1c6066e21e7def40f8

降低适应性门槛鲁棒机器学习

  • 训练阶段  

  对噪声数据的鲁棒性  

  • 应用阶段  

  模型对未知样本的鲁棒性  

   置信度估计  

  对关键性高风险应用的鲁棒性  

   增加数据、Safe Machine Learning算法

信任门槛黑箱模型

  • 比如医疗应用只给出诊断不给出原因无法给出治疗方案  
  • 可解释机器学习  

  Twice Learning [Zhou,2004]  

   LIME [Ribeiro, 2016] 

   Influence Functions Interpretation[Pang Wei Koh, 2017]

5310a09188c4d03d30d7272a5654b6c6ab91e0ec

数据安全和隐私门槛

  • 保护用户隐私同时保持数据的有效性  
  • 解决方案  

    保留数据隐私的机器学习方法  

    Differential Privacy  

  • 模型交易取代数据交易

171d0788acbf3ad9a96a44c153e1fa4720210cfc

机器学习应用的成本----计算成本

降低计算成本计算效率优化

怎么对计算效率进行优化分为四个点

  • 计算  
  • 存储  
  • 通讯  
  • 容错

分布式并行计算

  • 摩尔定律失效 
  • 能耗墙Power Wall 
  • 延迟墙Latency Wall 
  • 单机能力有限 
  • IO、存储、计算有限 
  • 目前提升计算能力的主流方式 
  • 并行化降低执行延迟提升吞吐 
  • 但是Amdahl定律

36610e7f43ab65076e6fd8025e9abb52618e96fe

分布式并行模型训练

  • 数据分布式和模型分布式

c3b66bb9da8f01bfea0b5c5847115829f43d45fc

典型计算模型数据流

48d836e2ef9c32d5d48348cd3f79e5e0b7ead8c8

典型计算模型参数服务器

39294d9ab69cbb15e43b2ee2396c0726ee8049fd

趋势数据流 + 参数服务器

7c9cf0168bf5a96c3c67c102c2e042c5d0975691

其他计算效率优化

  • 计算  

   • 异构计算优化  

   • 异步合理地计算调度  

  • 存储  

   • 不同存储设备共存Hard Disk / SSD / NVMe /    • RAM / L2 Cache…  

    • 多级缓存  

  • 通讯  

   • 提升网络吞吐、降低网络延迟  

    • 软件请求合并、缓存  

    • 硬件多网卡、InfiniBand…  

  • 灾备  
   • Data Lineage VS. Checkpointing

e68a9c2c4d775bda30108b95ca7544ed53e9d580

机器学习应用的成本-----专家成本

降低编程门槛机器学习平台

20ea7bf3d5341988f3f71981a28af5a256fa9fbd

降低专业门槛从“人工”智能到机器智能

2a126efdc63fe1ac21740a74b8ecf06a210fefdc

自动机器学习AUTOML

  • 自动数据清洗  
  • 自动数据类型推断  
  • 自动特征工程  
  • 自动模型和参数选择  

自动组合特征

  • 自动化特征组合FeatureGo  
  • 问题空间22?  

    •?=20,10315652  

     •AlphaGo空间10171

895cec30d7fb9a22be843c8ced884263c9243ac8

自动时序特征

3b4df8d1c617b538de5da801599909a16fc93fcf

自动模型和超参数选择

  • Bayes方法  
  • 演化计算方法  
  • 迁移学习方法

029cb22500effa8bb5422b83ad8df509c0d0f1a4

自动模型和参数选择工程优化

43440d1b9cd89e5a00ca36cf63d65c91eb9ce1da

机器学习应用的成本-----数据成本

降低数据成本学件、迁移学习

  • 学件 = 模型 Model + 规约 Specification  

   •可重用  

   •可演进  

   •可了解  

  • 迁移学习[Pan & Yang, TKDE 2010]  

   •特征迁移  

   •样本迁移  

   •强化迁移学习  

   •终生学习

a16797b47f671d4513ea363fdb6e4c0ce0549fc6

  • AI在工业界有了很多成功的应用  
  • AI for Everyone  
  • 效果  
  • 维复杂模型  
  • 强化学习  
  • 鲁棒机器学习  
  • 可解释机器学习  
  • 成本  
  • 降低专家成本AutoML  
  • 降低计算成本计算效率优化  
  • 降低数据成本学件、迁移学习


原文发布时间为2017-11-29
本文作者涂威威
本文来自云栖社区合作伙伴“中生代技术”了解相关信息可以关注“ 中生代技术 ”微信公众号


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值