
从0开始自然语言处理
文章平均质量分 97
自然语言处理(NLP)是支撑诸如语言翻译、情感分析、语音识别等多种应用的关键技术领域,它涉及对语言的理解和生成。通过技术知识点的阐释、演示性代码以及可视化结果的展示,入门自然语言处理,并能对基本的处理技术有一定的了解和实践能力。不妨从第1篇《绪论》开始你的学习旅程吧!
噢4u
211AI专业本科在读,期待交流与讨论
展开
-
自然语言处理nlp--9.情感分析(一般框架、公开数据集,含LSTM/SnowNLP代码示例)
情感分析是通过计算技术对带有情感色彩的主观性文本进行分析和推理的过程,旨在识别用户的态度和观点。其核心任务包括情感信息抽取和情感分类。该领域发展得益于公开评测如TREC、NTCIR和丰富的数据如Cornell、MPQA和情感词典如GI、HowNet。技术上,情感分析方法从早期的基于规则和词典的方法发展到如今的机器学习如LSTM、SVM、预训练语言模型,其中SnowNLP等库提供了开箱即用的解决方案。不过情感分析仍面临评价词语歧义、领域适应性等挑战,需要进一步研究细粒度情感分析和跨语言情感计算等技术。原创 2025-06-02 00:00:00 · 1272 阅读 · 0 评论 -
自然语言处理nlp--8.文本摘要
文本摘要是从原文提取核心信息并生成简洁概括的技术,分为抽取式和生成式两类。抽取式方法(如TextRank)直接选取关键句子,计算高效但灵活性不足;生成式方法(如Seq2Seq)通过深度学习重新组织语言,表达自然但需要大量数据。评估主要采用ROUGE等指标计算内容重合度。当前趋势是结合两种方法优势,在保证准确性的同时提升可读性。随着大模型发展,生成式摘要质量显著提高,但平衡信息密度与流畅性仍是挑战。原创 2025-05-12 00:00:00 · 1694 阅读 · 0 评论 -
从0开始机器学习--4.1编码和嵌入(语义计算方法,onehot独热、word2vec、node2vec、TFIDF,LabelEncoder等各类编码器库函数,含代码)
本文详细介绍了不同的编码(onehot)、嵌入(word2vec、node2vec)、文本提取(TF-IDF)方式,并介绍了不同的编码器库函数。原创 2024-10-03 21:35:00 · 1298 阅读 · 0 评论 -
自然语言处理nlp--5.语义分析(命名实体识别与关系抽取,含各自不同方法代码)
命名实体识别(NER)和关系抽取(RE)是语义分析的核心技术。NER识别文本中的人名、地名等实体,主要方法包括规则匹配、统计学习和深度学习;RE抽取实体间的语义关系,分为基于规则、监督学习、半监督和开放抽取等方法。两者共同支撑知识图谱构建和智能问答等应用,当前趋势是结合深度学习和弱监督技术,以提升模型泛化能力并降低标注成本。原创 2025-04-21 00:00:00 · 1862 阅读 · 0 评论 -
自然语言处理nlp--4.语篇分析(语义理论、格语法、语义网络、概念依存理论、词义消歧算法与算法性能评估、指代消解、语义角色标注,含词义消歧、角色标注实验代码)
系统阐述了自然语言语义计算的理论体系与技术方法,围绕语义理解的核心任务,深入探讨了格语法、语义网络和概念依存三大理论模型,分别从语义角色、概念关系和动作基元的角度解析语言含义。在应用层面,详细分析了词义消歧、指代消解和语义角色标注等关键技术,特别关注了汉语特有的零指代和流水句等处理难点。通过整合经典理论(如真理条件语义学)与现代技术(如深度学习),构建了从词汇到篇章的多层次语义分析框架,为自然语言理解提供了完整的理论支撑和方法体系,同时揭示了语义计算在处理复杂语言现象时面临的主要挑战。原创 2025-04-14 00:00:00 · 2177 阅读 · 0 评论 -
自然语言处理nlp--3.句法分析(依存句法分析、性能评价、汉英句法短语结构,含SpaCy\LTP\HanLP示例代码)
句法分析通过树状结构分析句子语法合规性,任务涵盖歧义消除和结构解析,依赖形式化语法(CFG、LFG、HPSG)和算法(CYK、移进-规约)。基于规则的方法受限于覆盖度和主观性,而依存语法以动词为中心,定义配价和支配关系,遵循Robinson四公理。spacy、LTP、Stanford CoreNLP和HanLP实现中英文依存分析,输出结构化结果及可视化树。汉语特点包括流水复句、缺少形态变化,需分层处理;英语侧重结构完整性。性能评估涉及UA、LA、等指标。短语结构可通过中心词规则转为依存结构,存在理论关联。原创 2025-04-07 00:00:00 · 1760 阅读 · 5 评论 -
自然语言处理nlp--2.词汇分析(中英文单词形态分析,汉字自动分词原则、算法,未登录词识别,词性标注方法,词汇分析性能评价,含python.jieba库分词实验代码)
自然语言处理中的词法分析与词性标注是NLP的基础任务,其中词法分析包括英语的形态还原(处理规则/不规则变化、特殊形式和合成词)和中文分词(解决歧义切分和未登录词识别),主要采用最大匹配法、最短路径法和统计语言模型等方法;词性标注则针对词性兼类问题,结合规则(如词缀和上下文规则)、统计模型(HMM、ME)和深度学习方法(BiLSTM-CRF、BERT),并依赖标准标注集(如北大和Penn Treebank),其性能通过正确率、召回率和F值评估,这些技术为上层NLP应用提供基础支撑。也介绍了jieba库的原理。原创 2025-03-31 00:00:54 · 1611 阅读 · 0 评论 -
自然语言处理nlp--1.绪论(概念辨析、研究内容、主要困难、研究现状、研究方法、中/英文汉字/单词极限熵-信息量的比较)
自然语言处理的研究内容涵盖了从基础的语言理解到实际应用的多个方面,如机器翻译、信息检索、自动文摘等。其基本问题包括形态学、句法、语义、语用学和语音学等问题,主要困难在于歧义、未知语言现象、数据不充分性和语言知识表达的复杂性等。研究方法则主要分为理性主义方法和经验主义方法,近年来逐渐趋向于两者的融合。同时,给出了不同规模语料和不同语种字符的熵的比较和计算--单个汉字所携带的信息量平均为3.25个英文单词所携带的信息量,而全文的信息量不论语种应是趋于相同的。单个字符的熵最终会趋于收敛与一个定值。原创 2025-03-24 00:00:00 · 1663 阅读 · 0 评论