算法设计的实用考量与挑战
1. 学习算法的问题与伦理考量
学习算法能够根据不断变化的数据模式进行自我微调,但这种实时学习能力可能会引发伦理问题。由于学习算法处于持续进化阶段,很难对其进行持续的伦理分析。
以亚马逊的招聘算法为例,2015 年亚马逊开始使用人工智能算法招聘员工。在部署前,该算法经过了严格测试,确保满足功能和非功能要求,且无偏见或其他伦理问题。然而,部署几周后,算法却出现了性别偏见。原因是新数据中男性数量远多于女性,且男性的背景与招聘岗位更相关,实时微调学习导致算法开始偏向男性,将性别作为招聘的决定因素之一。后来,亚马逊对模型进行了重新训练,并添加了必要的安全防护措施,以确保不再引入性别偏见。
1.1 不同算法的伦理考量
不同类型的算法需要不同的伦理考量:
| 算法类型 | 用途 | 伦理考量 |
| — | — | — |
| 分类算法 | 将数据分类到预定义的类别中,可用于决策过程,如签证审批或识别城市中的特定人群 | 确保分类过程公平、无偏见,避免对特定群体造成歧视 |
| 回归算法 | 根据输入数据预测数值,可用于决策,如预测房屋的最佳上市价格 | 保证预测结果的准确性和可靠性,避免因数据偏差导致的错误决策 |
| 推荐引擎中的算法 | 将简历与求职者匹配 | 实现局部和全局的可解释性,提供特定简历匹配的可追溯性和整体匹配逻辑的透明度 |
| 数据挖掘算法 | 从各种数据源挖掘个人信息,供政府用于决策,如芝加哥警察局用于识别犯罪热点和高风险人群 | 确保算法的设计和使用符合所有伦理要求,通过精心设计和持续监控来实现 |
2. 影响算法解决方案的因素
2.1 考虑不确定证据
在机器学习中,数据集的质量和广度对模型结果的准确性和可靠性起着关键作用。数据可能看起来有限,或者缺乏提供明确结果所需的全面深度。例如,新药在小群体中进行临床试验,结果可能无法全面反映其疗效;在城市的特定邮政编码区域检查欺诈模式,有限的数据可能显示出不一定在更广泛范围内准确的趋势。
需要区分“有限数据”和“不确定证据”。大多数数据集本质上是有限的,但“不确定证据”指的是不能提供明确或确定趋势或结果的数据。基于不确定模式进行决策可能会导致判断错误,因此在使用基于此类数据训练的算法进行决策时,必须保持批判性思维。
2.2 可追溯性
机器学习算法通常有单独的开发和生产环境,这可能导致训练阶段和推理阶段之间产生脱节。如果算法造成了某些危害,很难进行追溯和调试。此外,当发现算法存在问题时,也难以确定受影响的人群。
2.3 误导性证据
算法是数据驱动的公式,“垃圾进,垃圾出”(GIGO)原则表明,算法的结果只能与所基于的数据一样可靠。如果数据存在偏差,算法也会反映这些偏差。
2.4 不公平结果
算法的使用可能会对已经处于劣势的弱势群体造成伤害。基于不确定证据的决策容易导致不合理的行动。例如,使用算法分配研究资金多次被证明偏向男性群体,移民审批算法有时会无意中偏向弱势群体。即使使用高质量的数据和复杂的数学公式,如果结果不公平,整个努力可能带来的危害大于益处。
3. 减少模型中的偏差
模型中的偏差是指特定算法的某些属性导致产生不公平结果。在当今世界,存在基于性别、种族和性取向的已知且有详细记录的普遍偏差。除非在收集数据之前已经努力消除这些偏差,否则我们收集的数据预计会表现出这些偏差。
大多数情况下,算法中的偏差是由人类直接或间接引入的。人类可能由于疏忽而无意引入偏差,也可能由于主观因素而有意引入偏差。人类大脑容易受到认知偏差的影响,这种偏差会在算法的数据处理和逻辑创建过程中反映个人的主观性、信仰和意识形态。人类偏差可能反映在算法使用的数据中,也可能反映在算法本身的公式中。
减少偏差最棘手的部分是首先识别和定位无意识偏差。
4. 何时使用算法
算法就像从业者工具箱中的工具,首先需要了解在给定情况下使用哪种工具最合适。有时需要思考是否有解决问题的方案,以及何时是部署解决方案的正确时机。需要从以下三个方面分析使用算法的效果:
-
成本
:使用算法是否能证明实施该算法所付出的努力成本是合理的?
-
时间
:解决方案是否比简单的替代方案使整个过程更高效?
-
准确性
:解决方案是否比简单的替代方案产生更准确的结果?
选择合适的算法需要回答以下问题:
- 能否通过做出假设来简化问题?
- 如何评估算法?
- 关键指标是什么?
- 算法将如何部署和使用?
- 算法是否需要可解释?
- 是否理解三个重要的非功能要求——安全性、性能和可用性?
- 是否有预期的截止日期?
graph LR
A[是否有解决问题的方案] --> B{是否值得使用算法}
B -->|是| C[分析成本、时间、准确性]
C --> D[选择合适的算法]
D --> E{满足相关问题}
E -->|是| F[使用算法]
B -->|否| G[不使用算法]
E -->|否| H[重新评估或调整]
H --> C
5. 理解黑天鹅事件及其对算法的影响
在数据科学和算法解决方案领域,某些不可预测的罕见事件会带来独特的挑战。“黑天鹅事件”这一术语由纳西姆·塔勒布在《随机漫步的傻瓜》(2001 年)中提出,用来隐喻这类罕见且不可预测的事件。
5.1 黑天鹅事件的标准
要符合黑天鹅事件的标准,必须满足以下条件:
| 标准 | 描述 | 示例 |
| — | — | — |
| 意外性 | 该事件让大多数观察者感到惊讶 | 广岛原子弹爆炸 |
| 影响力 | 事件具有破坏性和重大意义 | 西班牙流感爆发 |
| 事后可预测性 | 事件发生后,如果注意到相关线索,本可以预见到该事件 | 西班牙流感成为大流行之前被忽视的迹象 |
| 并非对所有人都意外 | 有些人可能预见到了该事件 | 参与曼哈顿计划的科学家对原子弹爆炸有预期 |
5.2 黑天鹅事件给算法带来的挑战与机遇
- 预测困境 :虽然有众多预测算法,从 ARIMA 到深度学习方法,但预测黑天鹅事件仍然难以捉摸。使用标准技术可能会提供一种虚假的安全感。例如,预测像 COVID - 19 这样的事件的确切时间,由于历史数据不足,充满了挑战。
- 预测影响 :一旦黑天鹅事件发生,预见其广泛的社会影响是复杂的。我们可能既缺乏算法所需的相关数据,也缺乏对受事件影响的社会关系的理解。
- 预测潜力 :虽然黑天鹅事件看似随机,但它们是由被忽视的复杂前兆导致的。这为算法提供了一个机会:设计策略来预测和检测这些前兆,可能有助于预见潜在的黑天鹅事件。
5.3 实际应用案例
以近期的 COVID - 19 大流行这一典型的黑天鹅事件为例,一个潜在的实际应用可能涉及利用先前大流行的数据、全球旅行模式和当地健康指标。算法可以监测疾病的异常激增或其他潜在的早期指标,以发出潜在全球健康威胁的信号。然而,黑天鹅事件的独特性使得这一过程充满挑战。
6. 总结
在设计算法时,需要考虑诸多实际方面。了解了算法可解释性的概念以及在不同层面提供可解释性的各种方法,也探讨了算法中潜在的伦理问题。同时,明确了在选择算法时需要考虑的因素,如成本、时间、准确性等,以及如何应对黑天鹅事件等不可预测情况带来的挑战。
算法是当今自动化世界的引擎,学习、试验和理解使用算法的影响至关重要。了解算法的优势、局限性和伦理影响,将有助于让世界变得更美好。
graph LR
A[黑天鹅事件发生] --> B{能否预测}
B -->|否| C[面临预测困境]
B -->|是| D[预测影响]
D --> E{数据和关系是否充足}
E -->|否| F[难以预见社会影响]
E -->|是| G[分析前兆]
G --> H[预测潜在事件]
C --> I[重新审视技术和数据]
I --> B
F --> I
超级会员免费看

被折叠的 条评论
为什么被折叠?



