初阶NLP总结

最新推荐文章于 2025-02-16 23:29:21 发布

原创最新推荐文章于 2025-02-16 23:29:21 发布 · 3.8k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #深度学习 #机器学习 #nlp

自然语言处理专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍了自然语言处理项目的架构、流程与实践技巧，包括工程配置、语料库构建、词库创建、数据清洗、特征工程、模型训练及应用案例，强调数据处理与模型选择的重要性。

文章目录

工程架构
项目流程
经验总结

工程架构

配置 congfig
- 常量 constant
- 计时器 timer
- 数据可视化 visualize
- 日志 log
语料库 corpora
- 训练数据 train_data
- 词库 dictionary
文本处理 processing
- 清洗 clean
- 文本切割 cutter
  - 分句 clause
  - 分词 word
  - 词性标注 flag
模型 model
- 专家系统 expert_system
- 机器学习 machine_learning
  - 有监督模型 supervised
    - 逻辑回归 logistic_regression
    - 朴素贝叶斯 naive_bayes
  - 向量化 vectorization
    - TF-IDF tfidf
    - 词向量 word2vector
- 深度学习 deep_learning
  - 卷积神经网络 cnn
  - 循环神经网络 rnn
应用 application
- 命名实体识别 ner
- 文本分类 classification
- 统计分析 statistic

项目流程

语料库构建

词库构建

词库获取
- 通用词库：jieba、nltk
- 公司内部数据库：各种专用名词、字段名…
- 网上整理：科技、农业、体育、政治…
- 功能词库（停词、情感词、量词…）
- 爬虫或网购：行政区划、电影名、公司名…
新词
- 基于词频迭代
- 组合词（基于统计语言模型或规则）
词分类
- 按领域：医药、汽车、电影、体育、政治、农业、建筑…
- 按词性：名、动、形、副、介、连…
- 按情感：欢、悲、褒、贬、爱、恨、恐惧…
- 按清洗：停词、数量词、时间词、特殊符号
- 使用算法：Word2Vector、分类模型（朴素贝叶斯）、LDA…

训练数据

内部数据
- 数据库、日志文件
- 工作报告（PPT、WORD、EXCEL）
外部数据
- 购买
- 爬虫获取
- 网络资源
数据增强
- 统计语言模型生成
- 短文本生成（基于统计）
标注
- 自带标注
- 人工标注
- 算法标注

数据处理

清洗

特殊符号处理

def replace_punctuation(text):
    """替换标点（英→中）"""
    text = text.replace('(', '（').replace(')', '）')  # 圆括号
    text = text.replace('【', '（').replace('】', '）')  # 方括号（之后用于关键词高亮）
    text = replace_empty_bracket(text)  # 空括号
    text = re.sub('[;；]+', '；', text)  # 分号
    text = re.sub('[!！]+', '！', text)  # 叹号
    text = re.sub('[?？]+', '？', text)  # 问号
    text = re.sub('[.]{3,}|,{3,}|。{3,}|，{3,}|…+', '…', text)  # 省略号
    text = text.replace("'", '"')  # 引号
    text = re.sub('(?<=[\u4e00-\u9fa5]),(?=[\u4e00-\u9fa5])', '，', text)  # 逗号
    text = re.sub('(?<=[\u4e00-\u9fa5])[.](?=[\u4e00-\u9fa5])', '。', text)  # 句号
    return text.strip().lower()  # 转小写

def replace_space(text):
    """清除连续空白"""
    text = re.sub('\s*\n\s*', '\n', text.strip())
    text = re.sub('[ \f\r\t　]+', ' ', text)
    text = re.sub('([\u4e00-\u9fa5]) ([^\u4e00-\u9fa5])', lambda x: x.group(1)+x.group(2), text)
    text = re.sub('([^\u4e00-\u9fa5]) ([\u4e00-\u9fa5])', lambda x: x.group(1)+x.group(2), text)
    return text

过滤
- 停词
- 低频词（减少维度以提高程序效率）
替换（或离散化）
- 数量词：时间、长度、重量……
- 实体统一：公司名、地名……
- 近义词（如：番茄≈西红柿）
筛选
- 按词性
- 按长度

文本切割

切句

sep10 = re.compile('[\n。…；;]+|(?<=[\u4e00-\u9fa5])[.]+(?=[\u4e00-\u9fa5])').split
sep15 = re.compile('[\n。…；;!！?？]+|(?<=[a-z\u4e00-\u9fa5])[.]+(?=[a-z\u4e00-\u9fa5])', re.I).split
sep20 = re.compile('[!！?？]+').split
sep30 = re.compile('[,，:：]+').split
sep40 = re.compile('\W+').split  # 非中英文数字下划线
sep45 = re.compile('[^a-zA-Z\u4e00-\u9fa5]+').split  # 非中英文

分词

jiaba、nltk、ltp、foolnltk……

特征工程

词性
- 通用词性（jieba词性）
- 领域属性：公司名、电影名、地名……
- 功能属性：情感词、程度词、否定词、数量词、词根……
- 拼音特征
文本向量化
- TF-IDF、textrank权重
- word2vector
- Glove: Global Vectors for Word Representation
- 共现矩阵+SVD
句子特征
统计特征
- 语言模型（频数、概率）：unigram、bigram……
- 文本长度：众数、平均数、最值、标准差、分位数……

模型

机器学习
- 朴素贝叶斯（超快）
- 逻辑回归（快而准，常用）
深度学习
- CNN+Embedding
- RNN+Word2Vector
- 双向RNN+…
其它
- 基于规则，如：业务规则、统计学、经济学…
- LDA
- 知识图谱

极简常用示例代码

TF-IDF向量化+逻辑回归

from jieba import cut
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer

"""语料"""
texts = [
    '三个只有一个是新鲜的，其它两个都坏了，买得最差的一次水果',
    '京东，才发现你是个骗子，服务更是一样的烂',
    '火龙果很小，而且还有一个烂了，发霉了',
    '物流慢，收到时有两个底部已开始腐烂',
    '屏幕清晰度不高，而且运行速度巨慢',
    '贝质量很好，款式时尚，大小合适，做工精致，穿着舒服，服务很好',
    '质量很好的，款式也不错，看起来高档大气，卖家服务还好，不错',
    '裤子收到了，质量不错，价格便宜，穿着舒服，下次我还会来买的',
    '宝贝收到了，试了一下，穿上挺舒服的，是正品，综合给好评',
    '裤子挺好看，质量也不错，老公搭配衣服挺好看也很喜欢穿',
]
y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

"""向量转换器"""
vectorizer = TfidfVectorizer(tokenizer=cut, stop_words=set('的在了是和也有为就都说等与才这，'))
X = vectorizer.fit_transform(texts)

"""分类模型"""
clf = LogisticRegression()
clf.fit(X, y)
print(clf.score(X, y))