【生成式AI導論 2024】第15講：為什麼語言模型用文字接龍，圖片生成不用像素接龍呢？

骆驼穿针眼

于 2025-08-04 15:40:24 发布

阅读量765

点赞数 9

CC 4.0 BY-SA版权

分类专栏：大语言模型文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_55982578/article/details/149904022

生成式人工智能（Generative AI）是一种能够自动生成复杂且具有结构化内容的技术，涵盖文字、图像、声音等多种形式。这类模型擅长从有限的基本单元出发，构建出几乎无法穷举的内容组合，展现出强大的创造力和泛化能力。

文字是有token构成

在这里插入图片描述

影像是有像素构成的

每一个像素可以显示多少种颜色，取决于每像素位数（BPP, Bit Per Pixel）。BPP 越高，图像的颜色深度就越丰富：

8 BPP：每个像素占 8 位，可表示 256 种颜色，常用于灰度图或索引色图。
16 BPP：每个像素占 16 位，可表示 65,536 种颜色，通常用于高彩模式（High Color）。
24 BPP：每个像素占 24 位，可表示高达 16,777,216 种颜色（约 1670 万色），这是目前图像处理中最常见的真彩色（True Color）格式。

这种 BPP 与颜色数量的关系是通过公式

颜色数 = 2^BPP

计算得出的。

在音频处理领域中，**取样率（Sampling Rate）和取样解析度（Bit Resolution）**是影响音质的两个关键参数。

取样率（Sampling Rate）：表示每秒对声音信号进行采样的次数，单位为赫兹（Hz）。
例如，16kHz 的取样率表示每秒采集 16,000 个数据点，能较好地还原人类语音频率范围（约 300Hz~3400Hz），因此常用于语音识别等任务。

取样解析度（Bit Resolution）：也称为量化位数，表示每个采样点使用多少位（bit）来记录振幅信息。常见的解析度有：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。