用NLTK进行文本分析

最新推荐文章于 2024-08-06 08:47:21 发布

siyuchen1

最新推荐文章于 2024-08-06 08:47:21 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 机器学习文章标签： NLTK

本文链接：https://blog.youkuaiyun.com/qq_37512382/article/details/80296706

本文介绍了如何使用NLTK库进行英文和中文的文本分析，包括分词方法如空格分词、启发式分词和机器学习模型（HMM、CRF），并提到了结巴分词这一中文分词工具。同时，探讨了社交网络语言处理中的正则表达式应用，以及词形变化的处理，如词干提取和词形归一化。此外，还简述了NLTK在情感分析、文本相似度和文本分类等自然语言处理任务上的应用。

句子放进去就是字符串；

一、英文分词：利用空格；

中文分词：启发式分词，用长度优先的方式，最长的在字典中出现的词；

机器学习分词法：HMM、CRF

结巴分词的GitHub主页：https://github.com/fxsjy/jieba

基于python的中文分词的实现及应用：http://www.cnblogs.com/appler/archive/2012/02/02/2335834.html

对python中文分词模板结巴分词算法过程的理解和分析：

http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

https://blog.youkuaiyun.com/neutblue/article/details/7375085

二、社交网络语言

正则表达式：

http://www.regexlab.com/zh/regref.htm

import re
emoticons_str = r"""
    (?:
        [:=;] # 眼睛
        [oO\-]? # ⿐鼻⼦子
        [D\)\]\(\]/\\OpP] # 嘴
    )"""
regex_str = [
    emoticons_str,
    r'<[^>]+>', # HTML tags
    r'(?:@[\w_]+)', # @某⼈人
    r"(?:\#+[\w_]+[\w\'_\-]*[\w_]+)", # 话题标签
    r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+', 
                   # URLs
    r'(?:(?:\d+,?)+(?:\.?\d+)?)', # 数字
    r"(?:[a-z][a-z'\-_]+[a-z])", # 含有 -