【学习笔记】自然语言处理实践(新闻文本分类)- 基于机器学习的文本分类

这篇学习笔记探讨了自然语言处理中的文本表示方法,包括词嵌入、One-hot编码、词袋模型、Bi-gram和N-gram,以及TF-IDF。重点介绍了基于机器学习的文本分类,如岭回归和最小二乘法在文本特征处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Datawhale零基础入门NLP赛事-Task3

本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。

文本表示方法

  1. 词嵌入(Word Embedding) 是单词的一种数值化表示方式。它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
  2. One-hot编码 又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
  3. 词袋(Bag of words) 也称为计数向量表示(Count Vectors)。文档的向量表示可以直接用单词的向量进行求和得到。其具体实现可以采用sklearn中的CountVectorizer。本质是一种one-hot表示法。
  4. Bi-gram和N-gram Bi-gram将相邻两个单词编上索引,N-gram将相邻N个单词编上索引。
  5. TF-IDF 是TF(Term Frequency,词频)和 IDF(Inverse Document Frequency,逆向文档频率)的乘积,TF-IDF体现了一个单词在某篇文档中的重要性信息,但是不能体现位置信息,和词的上下文信息。

基于机器学习的文本分类

  1. 岭回归
    是带二范数惩罚的最小二乘回归。
    最小二乘法是对普通线性回归参数估计的一种方法,目标是是loss function达到最小,而此时的loss function是误差平方和。

  2. 词袋

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值