文章目录
本文主要是对《AI工程师(自然语言处理)体验课》课程的笔记整理
讲师:寒小阳
1、自然语言处理概述
定义:自然语言处理(Natural Language Processing),简称NLP
,是一种利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术
任务:通过处理和理解语言,来构建执行某些任务的系统
地位:人工智能与语言学的交叉学科,是人工智能的一个重要分支
- 跟计算机视觉、语音等构成人工智能不同研究领域
- 也被叫做计算语言学
- 基于机器学习和深度学习可以解决很多NLP问题
Turing Test
(图灵测试):自然语言理解是人工智能的根本问题
自然语言处理的层级
从左到右: 声音、词态学、语句结构,上层语义,高级应用如文本推理
NLP意义与难点
- 逻辑性强
- 依赖于强大知识库
2、NLP核心问题与主要应用
2.1 核心问题
2.2 主要应用
- 搜索引擎
- 文本主题与标签分类
- 文本创作与生成
- 机器翻译
- 情感分析与舆情监控
- 语音识别应用
- 聊天机器人:如
Siri
3、NLP中机器学习与深度学习方法
3.1 NLP的机器学习与深度学习方法
机器学习:人工对文本提取特征(预处理),稀疏表达
深度学习:端到端的学习,也叫做表示学习,稠密向量
机器学习基本处理流程
机器学习: 基于高维&稀疏的特征,如SVM
,Logistic回归
深度学习:基于密集向量
3.2 典型应用的解决效果
4、NLP应用:基于评论情感分析的酒店挑选
4.1 基础知识及项目背景
项目名称: 酒店评论情感分析
情感分析:(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。
具体表示就是,给你一段文本,用情感分析的自动化方法获取这一段内容中表达的情感色彩是什么?
通过爬虫技术获取到酒店的评论内容
传统机器学习文本表示:词袋模型
用稀疏向量去表示文本,也叫“独热向量”
深度学习文本表示:词嵌入(词向量)
以稠密向量的形式去表征词与词之间的向量关系
4.2 解决方案
机器学习解决方案:
深度学习解决方案:
模块导入
import warnings
warnings.filterwarnings("ignore")
import jieba
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['figure.figs