去除标点:
cat train.en | sed 's/[[:punct:]]//g' > train.clean.en
大写转小写:
cat train.en | tr A-Z a-z > train.lower.en
同样可以小写转大写。
两个空格合并为一个空格:
cat train.en | sed 's/ / /g' > train.clean.en
这三个操作可以放在一起:
cat train.en | sed 's/[[:punct:]]//g' | sed 's/ / /g' | tr A-Z a-z > train.clean.en
本文介绍了一种通过使用命令行工具进行文本预处理的方法,包括去除标点符号、转换大小写及合并多余空格等步骤,这些操作对于文本数据清洗至关重要。
75

被折叠的 条评论
为什么被折叠?



