AI也能哭会笑？情绪识别正在让AI学会共情

原创于 2025-08-12 18:20:11 发布 · 900 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #microsoft

全文2300字，阅读需7min。也可通过播客（豆包AI生成）轻松畅听。

当用户对着智能音箱倾诉一天的疲惫，

得到的却是没有感情的机械音回应；

当孩子兴奋地向陪伴机器人分享学校趣事，

迎来的只是机器人面无表情的 “真有趣”；

当老人与陪伴助手絮叨年轻回忆时，

却被陪伴助手“该吃药了”的提醒生硬打断……

你是否遇到过以上这些场景？人与智能体的交互未尽人意，智能体在情绪识别方面的不足使得生物性的情绪传递机制被迫断裂，社交体验感下降成为对话式产品增长的一大阻碍。

MIT媒体实验室的实证研究显示，“情绪识别技术对用户信任和交互效率拥有积极影响”。因此，情绪识别不是机器的附加功能，而是实现自然交互的认知基础设施。

网易云信情感陪伴智能体在情绪识别技术上的突破，正推动智能体从单纯的 “功能性工具” 向 “有情感的伙伴” 蜕变，尤其在硬件终端的多元交互中，这种转变愈发鲜活可感。

不止 “听懂”，更要 “共情”

情绪识别模块的核心价值，在于让智能体具备识别情绪、表达情绪的双重能力。它并非简单的 “关键词匹配”，而是通过对上下文、语义倾向的深度分析，让智能体的回应更贴合人类情感逻辑。

通过情绪双向识别，智能体可以读懂用户，也表达自己：一方面，通过分析用户输入的文本内容，智能体能够准确捕捉用户的情绪状态；另一方面，基于用户情绪和对话内容，智能体会调整自己的语言输出逻辑，为每次回应匹配最恰当的情绪表达。

网易云信采用了多层次的智能判断策略，让智能体更精准地识别和表达情绪。

在识别时，通过疑问、感叹等特殊句型匹配进行初步情绪分类；运用包含20多种情绪类别的关键词计分规则，建立关键词到情绪标签的映射关系；结合上下文情感连续性分析，确保情绪表达的自然连贯。当多种情绪得分相近时，系统按照预设优先级做出最终选择，确保情绪表达的鲜明性和适当性。

在表达时，通过算法避免情绪重复，让情绪转变更自然。比如在多轮对话中，从 “thinking”（思考）到 “happy”（开心）的切换，模拟人类 “从犹豫到愉悦” 的真实情感变化。为了避免交互卡顿，精心设计的提示词模板会引导大模型在生成回应内容时同步输出最匹配的情绪标签，无需额外调用模型。

该功能支持20+种基础情绪类型输出，每种情绪都配有对应的表情符号和详细描述。更重要的是，系统允许完全自定义情绪库，满足不同场景下的个性化需求。

{    {"neutral",     "😶" },     // 中立，默认表情    {"happy",       "🙂" },     // 开心，幸福    {"laughing",    "😆" },     // 哈哈，大笑    {"funny",       "😂" },     // 搞笑，幽默    {"sad",         "😔" },     // 不开心，难受    {"crying",      "😭" },     // 大哭，想哭    {"angry",       "😠" },     // 生气，讨厌    {"loving",      "😍" },     // 喜欢，爱你    {"embarrassed", "😳" },     // 尴尬，不好意思    {"surprised",   "😲" },     // 惊讶，没想到    {"shocked",     "😱" },     // 震惊，害怕    {"thinking",    "🤔" },     // 思考，沉思    {"winking",     "😉" },     // 调皮，奸笑    {"cool",        "😎" },     // 酷，优秀    {"relaxed",     "😌" },     // 放松，惬意    {"delicious",   "🤤" },     // 馋，好吃    {"kissy",       "😘" },     // 亲亲，飞吻    {"confident",   "😏" },     // 自信，肯定    {"sleepy",      "😴" },     // 困，睡觉    {"silly",       "😜" },     // 傻，呆，憨，蠢    {"confused",    "😵💫" }      // 困惑，不明白};

硬件交互，让情绪"活"起来

人类社交的本质是一种多模态的情绪共振——美国心理学家 Mehrabian认为，在对话中有93％的信息是通过非言语方式传递的。

而网易云信也致力于呈现多模态的情绪表达，打通与硬件设备的结合通道，落地交互逻辑。当智能体确定回应情绪后，会通过控制信令将情绪状态实时下发到终端设备，在物理层面呈现出生动的表情变化。通用的控制信令接口兼容不同硬件平台的表情渲染能力，从简单的LED表情显示到复杂的机械面部动作都能完美支持。

人机交互中，显示屏是情绪最直观的表达窗口。企业可以定制视觉元素，无论是基础的emoji还是拟人的动态表情，通过绑定视觉元素与情绪标签，可将智能体的情绪“可视化”。字幕与情绪标签的联动，在回答字幕开头加入情绪标识，如 “😆 哈哈，这个趣事我记下了”，让用户快速捕捉智能体的情绪倾向。