智能手机文本和消息的统一罗塞塔石碑法医分析
1. 引言
在刑事调查中,扣押智能手机是调查人员识别数据和行为特征以用于法庭的常用手段之一。然而,对智能手机数据进行法医分析存在诸多困难。
首先,文本和语音消息的语言可能不为分析师所熟悉,甚至难以立即识别。例如,达罗毗荼语系的语言在语法和词汇上差异很大,但可能使用与同组其他语言相同的书写系统,欧洲分析师可能对这些语言的书写系统并不了解。其次,大量的文本和语音消息可能与特定的法医活动无关,如问候语、家庭情况短消息、闲聊等,甚至存在大量空消息。手动处理这些消息既复杂又低效。
因此,开发一种满足以下条件的技术解决方案至关重要:
- 统一处理文本和语音消息;
- 假设消息作者使用的语言未知,文本消息可能是多种语言的混合;
- 考虑单条消息中可能包含外来语、符号(表情符号、GIF、首字母缩写词)和俚语。
为此,我们设计了一种文本消息法医分析方法,包括以下步骤:
1. 形成语料库 :将消息(文本或通过语音转文本程序转换为文本的音频)收集到文档存储库中,并将其所有元数据存档到数据库中。
2. 翻译消息 :使用改进的翻译程序将所有消息翻译成罗塞塔语言(英语),再转换为目标语言。
3. 清理消息语料库 :通过手动或自动化方法(可能基于文本分析)过滤消息。
本文主要关注第二步,第三步的实现留作进一步研究。
为了将未知语言的文本翻译成分析师熟悉的语言,我们采用以下翻译路径:
1. 检测文本 T 所使用的语言 L;
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



