高效处理文本与文件搜索的实用技巧
在日常的计算机使用中,我们常常会遇到各种文本和文件处理的问题。比如从 Word 文档中提取简单 ASCII 文本时出现奇怪字符,需要统计文件中的行数、单词数或字符数,对过长或过短的段落进行重新排版,以及在文件系统中搜索特定文件等。下面将为大家详细介绍解决这些问题的方法和技巧。
去除智能引号
当你从 Word 文档中保存为纯文本时,可能会出现一些奇怪的字符,这些字符通常是来自 Windows - 1252 字符集的“智能引号”。可以使用 tr 命令将这些奇怪字符转换为简单的 ASCII 字符。
- 示例命令 :
$ tr '\221\222\223\224\226\227' '\047\047""--' <odd.txt >plain.txt
-
tr命令特殊转义序列 :
| 序列 | 含义 |
| ---- | ---- |
| \ooo | 八进制值为 ooo 的字符(1 - 3 个八进制数字) |
| \ | 反斜杠字符 |
| \a | “可听”铃声,ASCII BEL 字符 |
| \b | 退格 |
| \f | 换页 |
| \n | 换行 |
| \r | 回车 |
| \t | 制表符(有时称为“水平”制表符) |
| \v | 垂直制表符 | </
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



