
文本处理
fmddlmyy
伐木丁丁鸟鸣嘤嘤
展开
-
cnbook/TextPro6应用1:“字符实体”类型邮件乱码的分析
cnbook/TextPro6应用1:“字符实体”类型邮件乱码的分析假设你收到一封邮件,邮件的内容是:À´ÐÅÊÕµ½£¬Ð»Ð»你能分析出这封邮件其实是在说“来信收到,谢谢”吗?本文讨论了这种乱码的由来,介绍了一种简单的解码方法原创 2008-05-25 21:27:00 · 2746 阅读 · 1 评论 -
几个文本处理的小题目
在北大中文论坛的中文信息处理版有时会看到一些与文本处理有关的问题。想想怎么解答这些问题,其实也挺有意思,有点像解谜游戏。例如今天看到的一个问题:1 找重码1.1 问题怎么找出码表中的重码?假设有码表test.txt:甲 AB雅 AB弟 AC大 AD发 BC收 BC回 BC收 CE名 CE其中有的汉字有相同的编码原创 2008-11-01 19:02:00 · 2270 阅读 · 3 评论 -
几个文本处理的小题目(续一):使用awk
在飞机上用《sed与awk》消磨时间时,想起网友以前提过的一个问题:1 按指定列的长度排序1.1 问题这个网友有以下格式的词库(in.txt):w=我 bm=标 ceq=陈 wm=我们 nnyl=努 wm,=我们 djh=大家好 tdmd=他们 tzm=同志们 tzm,=同志们 djhnv=大家好 ppaa=平平安安 tzmdv=同志们原创 2008-11-04 23:57:00 · 3125 阅读 · 11 评论 -
在Word中插入和引用公式编号
1、需求最近要用Word写一些有很多公式的文档,一个小节就有十几个公式,一章有几十个公式。我希望能公式能自动编号。例如我在公式(3.3)前面增加了一个公式并编号后,后面的编号以及引用编号的地方会自动变化。即原来的公式(3.3)的编号会变成(3.4),原来引用公式(3.3)的地方也会自动引用(3.4)。我觉得这个需求很简单。但实际上我搜索加摸索,搞了好一阵子才找到正确的操作方法。记录一下,或原创 2009-01-21 23:43:00 · 38409 阅读 · 11 评论 -
用CodeView分析“字符实体”类型邮件乱码
如果你手里只有一把锤子,你就会把所有的问题都看成钉子。1 “字符实体”类型邮件乱码我在一篇 旧文 中分析过“字符实体”类型的邮件乱码。产生原因大致这样:原文是:来信收到,谢谢 (一)对应的编码是C0 B4 D0 C5 CA D5 B5 BD A3 AC D0 BB D0 BB (二)有的软件系统不支持中文,它把高位为1原创 2009-03-28 12:25:00 · 1261 阅读 · 1 评论