李宏毅《生成式人工智能导论》 | 第11讲-第14讲:大型语言模型的可解释性、能力评估、安全性

人工智能的可解释性

引入

人工智能是一个黑盒,搞不清楚他们在想什么?

想法1:没有Transparency,没有开源

想法2:不是Interpretable,思维不透明

一眼就能看穿,思维透明的模型是Interpretable,但其实这里有个争议是如何去衡量什么是一眼就能看穿的。有人说决策树就是Interpretable,但当决策树非常非常复杂时,复杂到无法一眼看穿在干什么。

想法3:没有办法解释为什么有这个输出,无法Explainable

语言模型是Not Interpretable但也有可能是Explainable,因为可以直接询问模型决策的过程

下面的课程集中在讨论可解释性Explainable,一个复杂的人工智能肯定不是Interpretable的,聪明的人工智能做出的决策肯定不是简单到一眼就让你看穿的。

可解性

  1. 可以找出影响输出的关键输入

方法1:观察每一个输入的改变对输出的影响

下面图片展示了盖住输入对输出的影响,还可以采用计算Gradient梯度等方法知道输入和输出的关系

方法2:分析Attention Weight观察每一个token对输出的影响力

  1. 可以直接问,为什么得到这个答案

举例1:输入的每一个词汇和输出之间的关系,可以直接要求语言模型输出每个词对于判断的重要性

举例2:语言模型对自己答案的信心,原来通过输出的概率来判断信心,但现在可以直接问语言模型对答案的信心分数是多少?

问题:语言模型提供的解释一定可信吗?

语言模型提供的解释不一定可信

### 李宏毅生成式AI导论课程资料概述 #### 课程简介 李宏毅教授的《生成式AI导论》是一门深入浅出介绍生成式人工智能理论和技术的课程。该课程不仅涵盖了生成式AI的基础概念和发展历程,还探讨了当前最前沿的研究成果及其实际应用场景[^1]。 #### 主要内容概览 - **第0:课程说明** - 对整个系列座的内容框架进行了详细介绍。 - **第1生成式AI是什么?** - 解释了生成式AI的核心定义以及其与其他类型的人工智能的区别所在。 - **第二:今日的生成式人工智慧厲害在哪裡?從「工具」變為「工具人」** - 探讨现代生成式AI的强大之处,并分析这些进步如何使机器不仅仅作为辅助工具存在,而是能够承担更多自主任务的角色转变过程。 - **第三:训练不了人工智能?你可以训练你自己(上)** - 讨论个人技能提升的重要性,特别是在面对复杂多变的技术环境时自我调整和适应的方法论建议。 #### 结构化学习与生成式学习的关系 在过去,“结构化学习”指的是让计算机学会处理具有特定格式的数据;而如今所说的“生成式学习”,则是指通过大量无标注数据来构建可以创造新样本或模拟真实世界现象的概率分布模型。尽管两者名称不同,但在某些方面确实存在着一定的联系——它们都涉及到模式识别、特征提取等关键技术环节。然而值得注意的是,在具体实现方式和技术细节层面二者之间差异巨大,尤其是在近十年间随着深度学习算法的发展,后者取得了前所未有的突破性进展[^2]。 #### 获取资源途径 为了方便国内学生获取最新版本的教学材料,《李宏毅2024生成式人工智能导论》提供了中文镜像版指导文档及配套练习题库,所有相关内容均已托管至GitHub平台供免费下载使用。这一举措得到了原作者正式授权许可,体现了教育工作者对于知识传播开放共享精神的支持态度[^3]。 ```bash git clone https://github.com/user/repo.git cd repo ``` 上述命令可以帮助用户轻松克隆仓库并浏览其中包含的各种教学素材。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值