摘要
随着生成式人工智能技术的快速发展,语音合成与语音克隆能力显著提升,其在语音钓鱼(vishing)攻击中的应用正对传统身份验证机制构成严峻挑战。本文基于Identity Week于2025年披露的多起真实事件,系统分析AI赋能下vishing攻击的技术演进路径、实施模式及其对基于知识的身份验证(KBA)和语音通道多因素认证(MFA)的破坏效应。研究表明,攻击者通过结合社交媒体画像、数据泄露信息与高保真语音合成模型,可高效模拟银行客服、企业高管或IT支持人员,诱导目标执行敏感操作。现有依赖语音交互的身份核验流程——如电话回拨确认、语音OTP播报等——在缺乏生物特征辅助验证的情况下极易被绕过。本文提出融合被动语音生物识别、设备绑定认证与操作延迟确认的纵深防御框架,并通过代码示例展示语音异常检测与合成语音判别模型的实现逻辑。研究强调,仅靠用户意识培训已不足以应对高度拟真的AI语音欺诈,必须重构高风险业务的身份验证架构。
关键词:语音钓鱼;生成式语音合成;身份验证;语音生物识别;KBA;多因素认证

1 引言
语音钓鱼(Voice Phishing, vishing)作为一种社会工程攻击形式,长期依赖攻击者的口音模仿、话术设计与心理操控能力。然而,近年来生成式人工智能(Generative AI)的突破性进展,特别是文本到语音(TTS)与零样本语音克隆(Zero-shot Voice Cloning)技术的普及,使得高质量语音伪造的门槛大幅降低。开源模型(如VITS、YourTTS)与商业API(如ElevenLabs、Play.ht)的广泛可用,使攻击者能在数分钟内生成语调自然、情感逼真的目标人物语音,极大增强了vishing的欺骗性与可扩展性。
2025年以来,全球多地报告了利用AI合成语音实施的金融诈骗与企业供应链攻击案例。例如,某欧洲能源公司财务人员接到“CEO”来电,要求紧急变更供应商收款账户,语音特征高度吻合且背景信息准确,导致数百万欧元转账损失。另一案例中,攻击者冒充银行客服,通过合成语音引导用户“验证账户”,成功绕过基于问题-答案的知识验证(如“您母亲的 maiden name 是什么?”)。
此类事件暴露出当前身份核验体系在语音通道上的结构性脆弱:一方面,传统KBA机制假设只有合法用户掌握私密信息;另一方面,许多机构仍将电话回拨或语音播报OTP视为安全的MFA手段。然而,在AI语音可精准复现个体声纹特征的背景下,这些假设已不再成立。
本文旨在深入剖析AI增强型vishing的技术实现机制,评估其对现有身份验证范式的冲击,并提出可落地的技术对策。全文结构如下:第二节解析攻击链各环节的技术细节;第三节揭示KBA与语音MFA的失效机理;第四节构建包含生物识别、设备绑定与流程控制的综合防御体系,并辅以代码实现;第五节总结研究发现与实践建议。

2 攻击技术演进与实施流程
2.1 语音合成与克隆技术基础
现代生成式TTS系统通常基于深度神经网络架构,如Tacotron 2、FastSpeech 2或VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)。其中,VITS因其端到端训练与高自然度表现,成为开源社区主流选择。更关键的是零样本语音克隆技术——仅需3–5秒目标语音样本,即可生成任意文本内容的仿声输出。
以YourTTS为例,其训练流程如下:
# 简化版YourTTS推理示例(基于Coqui TTS)
from TTS.api import TTS
# 加载预训练模型(支持多说话人)
tts = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts", progress_bar=True)
# 使用目标语音样本进行风格迁移
reference_wav = "ceo_sample_5s.wav" # 从LinkedIn视频或会议录音提取
text = "Hi Sarah, this is Mark. Please update the payment details for vendor ABC immediately."
# 生成合成语音
tts.tts_to_file(
text=text,
speaker_wav=reference_wav,
language="en",
file_path="synthetic_call.wav"
)
该代码展示了如何利用公开语音片段生成高度相似的指令语音。攻击者可通过爬取目标高管在社交媒体、财报会议或播客中的音频,快速构建语音模板。

2.2 攻击实施四阶段模型
典型AI增强vishing攻击可分为四个阶段:
情报收集:通过数据泄露(如Have I Been Pwned)、LinkedIn资料、公司官网组织架构图,获取目标姓名、职位、常用术语、近期项目等上下文信息。
语音建模:采集目标语音样本(≥3秒),使用开源工具(如Resemblyzer + VITS)或商业API生成可定制脚本的语音模型。
呼叫伪装:结合来电显示欺骗(Caller ID Spoofing)服务,将主叫号码伪装为企业内部短号或银行官方热线。
脚本化交互:预设对话流程,如:
“您好,我是IT安全中心,检测到您的账户异常登录,需立即验证身份。”
“为保障资金安全,请提供一次性验证码,我们将为您冻结可疑交易。”
整个过程可高度自动化。例如,攻击者部署一个Twilio集成脚本,在用户接听后自动播放合成语音,并根据DTMF按键或语音关键词触发后续话术分支。

2.3 绕过多因素认证的社工技巧
即便机构启用MFA,攻击者仍可利用社会工程绕过:
语音OTP劫持:诱导用户“协助验证”,称“系统正在向您手机发送验证码,请读出以便我们完成安全检查”;
回拨陷阱:声称“请挂断并立即回拨此号码以确认身份”,而该号码实为攻击者控制的转接线;
紧急情境施压:“若5分钟内未确认,账户将被永久冻结”,抑制用户理性判断。
在此类场景中,AI语音的真实性显著提升了话术可信度,使用户更易服从指令。
3 身份核验机制的脆弱性分析
3.1 基于知识的验证(KBA)失效
KBA分为静态(如出生地、宠物名)与动态(如最近交易金额)。前者因社交媒体暴露而极易被猜中;后者虽较安全,但攻击者可通过前期钓鱼或中间人攻击获取上下文。更重要的是,KBA的安全性完全依赖于“信息私密性”假设,而AI语音本身并不需要破解KBA——它只需让目标相信对方是合法实体,从而主动透露答案。
例如,当“银行客服”用逼真语音询问“您上月信用卡还款金额是多少?”,用户往往不假思索回答,而非质疑对方身份。此时,KBA沦为信息泄露通道。
3.2 语音通道MFA的风险
许多机构将“电话回拨”或“语音播报OTP”视为强认证手段,理由是攻击者无法控制用户手机。然而,vishing攻击恰恰利用了这一信任:
回拨不可信:若用户回拨的是攻击者提供的号码(通过语音诱导),则整个通道已被接管;
OTP语音播报可被窃听:在合成语音引导下,用户可能主动读出收到的OTP;
无设备绑定:语音通道独立于终端设备状态,无法验证请求是否来自合规设备。
因此,语音通道本质上是一个无上下文、无设备锚定的弱认证平面,在AI语音时代风险急剧放大。
3.3 客服中心的“信任透传”漏洞
企业客服中心常作为身份验证的最终仲裁者。但当攻击者能模拟高管语音并提供准确业务细节时,客服人员极易被说服执行高危操作,如重置密码、变更收款账户。这种“信任透传”机制在缺乏二次确认流程的情况下,成为供应链攻击的关键跳板。
4 防御体系构建
4.1 禁用高风险语音认证流程
首要措施是彻底禁用通过语音渠道下发或索取OTP。所有一次性码应仅通过加密推送通知(如Authy、Microsoft Authenticator)或FIDO2安全密钥传输。同时,明确告知用户:“任何官方机构绝不会通过电话索要验证码”。
4.2 引入被动语音生物识别
在必须使用语音交互的场景(如客服热线),应部署被动语音生物识别(Passive Voice Biometrics)系统。该技术在用户正常通话中持续提取声纹特征(如基频、共振峰、语速),并与注册模板比对,无需用户配合朗读固定语句。
以下为基于Resemblyzer的简易声纹比对示例:
from resemblyzer import VoiceEncoder, preprocess_wav
import numpy as np
encoder = VoiceEncoder("cpu")
# 注册阶段:存储合法用户声纹嵌入
enrollment_wav = preprocess_wav("enrollment_call.wav")
enrollment_embed = encoder.embed_utterance(enrollment_wav)
# 验证阶段:实时比对
live_wav = preprocess_wav("current_call.wav")
live_embed = encoder.embed_utterance(live_wav)
# 计算余弦相似度
similarity = np.dot(enrollment_embed, live_embed) / (
np.linalg.norm(enrollment_embed) * np.linalg.norm(live_embed)
)
if similarity < 0.7: # 阈值需根据ROC曲线校准
raise SuspiciousCallError("Voice biometric mismatch detected.")
该模型可集成至呼叫中心IVR系统,在通话初期即触发风险评分。
4.3 启用合成语音检测
除声纹匹配外,还需检测语音是否为AI生成。研究表明,合成语音在高频谱细节、相位连续性及微颤音(micro-prosody)上存在统计异常。可训练二分类器识别此类特征。
# 使用预训练ASVspoof模型检测合成语音
import torch
from torchaudio.models import wav2vec2_model
# 加载反欺骗模型(如RawNet3或AASIST)
model = torch.load("antispoofing_aasist.pth")
model.eval()
def detect_spoof(audio_path):
waveform, _ = torchaudio.load(audio_path)
with torch.no_grad():
score = model(waveform.unsqueeze(0))
return "bonafide" if score < 0.5 else "spoof"
实际部署中,可将该模块作为语音流的实时过滤器,对高风险呼叫自动转接至人工审核。
4.4 流程控制与多通道复核
延迟确认机制:对变更收款账户、大额转账等操作,强制设置15–30分钟冷静期,期间通过独立通道(如企业微信、邮件)发送确认链接;
回拨白名单:仅允许用户回拨预注册的官方号码,其他“回拨指令”一律视为可疑;
越级操作阻断:若来电声称“CEO直接指示”,系统应要求通过正式审批流(如ERP系统工单)而非电话执行。
4.5 员工培训与红队演练
培训重点应从“识别口音破绽”转向识别社会工程信号:
“紧急”“保密”“越级”等关键词组合;
要求绕过标准流程的操作指令;
对方拒绝通过官方渠道(如Teams、内部系统)沟通。
定期开展红队vishing演练,测试员工响应,并将结果纳入安全绩效考核。
5 结论
生成式语音合成技术的民主化,使语音钓鱼攻击从低效的手工操作升级为可规模化、高精度的社会工程武器。传统依赖语音通道的身份验证机制——无论是KBA还是语音MFA——在AI伪造面前已显露出根本性缺陷。其核心问题在于:语音本身不再是可靠的身份载体,而仅是可被完美复制的信息媒介。
有效的防御不能寄望于用户识别细微语音瑕疵,而必须通过技术架构重构,将身份验证锚定于不可伪造的要素:设备硬件(如TPM芯片)、加密密钥(FIDO2)或持续行为生物特征(如被动声纹)。同时,高风险业务流程需引入时间延迟、多通道确认与权限隔离,切断“语音指令→即时执行”的危险通路。
未来,随着实时语音克隆与情感合成技术的进一步发展,vishing攻击或将融入上下文感知与自适应话术生成,形成更复杂的对抗态势。安全体系的设计者必须摒弃“语音即本人”的旧范式,转向零信任、多因子、上下文感知的新身份治理模型。唯有如此,方能在AI赋能的欺诈浪潮中守住身份验证的最后一道防线。
编辑:芦笛(公共互联网反网络钓鱼工作组)
1069

被折叠的 条评论
为什么被折叠?



