15、基于深度学习的通话记录垃圾信息检测

最新推荐文章于 2025-11-25 14:31:30 发布

raspberrypi5

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：未来技术前沿探秘文章标签：深度学习垃圾信息检测通话记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/raspberrypi5/article/details/152022931

未来技术前沿探秘专栏收录该内容

87 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于深度学习的通话记录垃圾信息检测

1. 引言

在当今数字化时代，垃圾电话和信息泛滥成灾，给人们的生活带来了极大的困扰。为了有效识别和过滤这些垃圾信息，本文介绍了一种基于深度学习的垃圾信息检测方法，该方法通过构建一个两阶段混合模型（2PHM），结合多种技术手段，实现了对通话记录的高效准确分类。

2. 技术原理

2.1 嵌入生成

使用通用句子编码器（USE）技术生成嵌入。这是一种简单但经验上非常强大的方法，允许大量定制。编码后的向量被进一步输入到两个并行模型中，其结果按照 85:15 的权重进行比较。

2.2 模型架构

第一管道 ：采用一维卷积网络，随后是最大池化单元。输出再输入到一个深度长短期记忆网络（LSTM），该网络在循环神经网络（RNN）上有两层。
第二管道 ：使用词组测试单元，用于早期排除正常数据。如果系统通过简单的词组测试未检测到垃圾意图，则采用基于句子的相似度测试。

2.3 最终分类

最终阶段进行加权比较，对两个管道的输出进行平均，从而做出最终分类。这种方法有助于显著减少测试集中的误报。

3. 具体步骤

3.1 通话转录

为了以最小的延迟和高准确性将语音转换为文本，采用 Google 语音转文本 API。生成的输出包含大量不必要的标点符号和停用词，使用基于语料库中未用于训练的其余句子训练的标准三元模型进行纠正。

3.2 文本预处理

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。