开源项目推荐:profanity-filter
1. 项目基础介绍
profanity-filter 是一个由 优快云公司开发的InsCode AI大模型 开源的项目,主要使用 Python 编程语言开发。该项目旨在提供一个通用的库,用于检测和过滤文本中的不当言论和敏感词汇。
2. 核心功能
- 全文或单个词汇审查和过滤:支持对文本中的敏感词汇进行审查和替换,可以针对整个文本或单个词汇进行操作。
- 多语言支持:包括对英语和俄语的支持,同时也能处理混合语言文本中的不当言论。
- 深度分析:通过使用 Levenshtein 自动机,不仅能够检测精确的敏感词汇匹配,还能识别派生和扭曲的敏感词汇。
- Spacy 组件支持:可以将该库作为 Spacy 自然语言处理管道的一部分使用。
- 部分词汇审查:支持对文本中的部分敏感词汇进行审查。
- 可扩展性:通过提供字典,可以添加对新语言的支持。
- RESTful web 服务:提供了一个基于 RESTful 架构的 web 服务。
3. 最近更新的功能
最近更新的功能主要集中在以下几个方面:
- 修复和优化:对一些已知的 bug 进行了修复,并对代码进行了优化以提高性能和稳定性。
- 多语言支持:增加了对其他语言的支持,尤其是俄语的支持,包括提供了俄语的不当言论词汇列表和 Hunspell 格式的字典文件。
- 深度分析功能:通过集成 Hunspell 和 pyffs 库,增强了对深度分析的支持,包括对敏感词汇的变形和拼写错误的检测。
- Spacy 组件:进一步优化了与 Spacy 的集成,提高了作为 Spacy 管道组件的兼容性和功能。
通过这些更新,profanity-filter 项目不仅增强了其功能,还提高了其适用性和实用性,为开源社区提供了强大的文本审查工具。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考