数据读取，去除中文字母数字之外符号，并分词

最新推荐文章于 2023-10-05 23:27:23 发布

原创最新推荐文章于 2023-10-05 23:27:23 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

每日记录专栏收录该内容

14 篇文章

订阅专栏

本文介绍了一种使用Python的jieba库进行文本预处理的方法，包括去除非中英文字符、分词及保存处理后的结果。通过示例代码展示了如何读取文本文件，应用正则表达式过滤非法字符，并利用jieba进行精确分词。

# encoding=utf-8
import jieba
import optparse
import re,codecs


def main():
    parser = optparse.OptionParser()
    parser.add_option('--kunpeng-txt', type=str, help='')
    parser.add_option("--kunpeng-split", type=str, default='')

    (args, dummy) = parser.parse_args()
    input = args.kunpeng_txt
    outfile = open(args.kunpeng_split, 'wb')

    pat_assert = u'[^\u4e00-\u9fa55a-zA-Z0-9]'
    repat_assert = re.compile(pat_assert)

    jieba_cut = ""
    for line in codecs.open(input, 'rb', encoding='utf-8', errors='ignore'):
        line = line.strip()
        string = repat_assert.sub(u'', line)

        jieba_cut = jieba.cut(string)
        words = ' '.join(jieba_cut)+'\n'
        outfile.write(words.encode('utf-8'))
    outfile.close()


if __name__ == '__main__':
    main()