
自然语言处理
文章平均质量分 91
主要包括实体命名、文本分类、意图识别等内容,后续会逐步进行更新。具体讲述内容见--自然语言处理入门0一文
为自然语言奋斗
计算机在读研究生,主要记录在学习中有关自然语言处理等方面的内容。
展开
-
自然语言处理入门0
自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个分支,涉及处理和理解人类语言的能力。它致力于使计算机能够与人类语言进行交互、理解和生成自然语言。NLP涉及了多种技术和方法,用于处理和分析文本、语音和其他形式的人类语言数据。原创 2023-12-24 16:47:42 · 350 阅读 · 0 评论 -
NLP常用编码方式--onehot、word2vec、BERT
BERT编码方式是依赖于huggingface官网所提供的预训练模型进行的,在使用时可以根据文字的具体类型和需要,在官网上下载,并使用pytorch调用模型对数据编码。在下面的示例中,我们首先加载了预训练的 BERT 模型和分词器(one-hot是一种词嵌入方式,编码方式较为较为简单,就是将每一个词或字都表示为一个向量,仅在该词或字所在的位置设置为1,其余位置均为零。在进行自然语言处理时,对文字进行编码一个十分必要的步骤文字编码的目的是将文本数据转换为计算机可以理解和处理的数字表示形式。原创 2024-01-04 21:51:17 · 2868 阅读 · 1 评论 -
中文分词(2)--正向、反向、双向匹配
介绍了有关正向、反向和双向最大匹配算法的基础知识,并手动描述具体的实现流程。并使用python分别实现这三种算法原创 2023-12-12 21:00:14 · 2380 阅读 · 0 评论 -
中文分词(1)--正则表达式
正则表达式是由一系列字符和特殊字符组成的模式,用于描述和匹配字符串的规则。这些函数和方法提供了基本的正则表达式功能,可以用于字符串的匹配、搜索、替换等操作。在编程语言中,通常会提供正则表达式的库或模块,用于处理正则表达式的操作。:在字符串中搜索匹配模式的第一个位置,如果匹配成功则返回一个匹配对象,否则返回。:返回一个迭代器,包含字符串中所有与模式匹配的非重叠子字符串的匹配对象。:从字符串的开头开始匹配模式,如果匹配成功则返回一个匹配对象,否则返回。:返回字符串中所有与模式匹配的非重叠子字符串的列表。原创 2023-12-12 16:46:01 · 1219 阅读 · 0 评论