
自然语言处理
文章平均质量分 93
自然语言处理
隐私无忧
华为技术有限公司 安全专家,专注信息安全、人工智能领域。
展开
-
自然语言处理(1)—— 语言的本质
人工智能时代,大语言模型层出不穷,但语言的本质是什么呢?本文深入探讨了语言(包括语言和文字)的本质。原创 2025-03-05 20:51:10 · 1621 阅读 · 0 评论 -
自然语言处理(2)—— NLP之百年风雨路
自然语言处理(NLP)的发展史是一部人类试图用机器理解自我的探索史。从20世纪中叶至今,这项技术经历了四个关键阶段,每个阶段都折射出人类认知方式的重大转变。原创 2025-03-17 21:59:17 · 839 阅读 · 2 评论 -
自然语言处理(3)—— 自然语言处理的21个基本概念
本文介绍了自然语言处理中的21个基本概念,包括语言、词、分词、词法分析、句法分析、语义分析等。原创 2020-08-15 22:09:52 · 7154 阅读 · 0 评论 -
自然语言处理(4)—— 语言模型
语言模型(Language Model)通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。 语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。原创 2020-07-05 18:13:13 · 2035 阅读 · 0 评论 -
自然语言处理(5)—— 词频统计及Python实现
词频统计是自然语言处理的基本任务,针对一段句子、一篇文章或一组文章,统计文章中每个单词出现的次数,在此基础上发现文章的主题词、热词。本文介绍了词频统计的基本方法,并配有代码实现。原创 2023-03-25 15:58:15 · 4254 阅读 · 0 评论 -
自然语言处理(6)—— 中文分词
汉语词汇是语言中能够独立运用的最小的语言单位,是语言中的原子结构。由于中文缺乏类似英文的空格分隔,分词的准确性直接影响后续任务(如机器翻译、情感分析)的效果。因此,对中文进行分词就显得至关重要。原创 2025-03-22 09:38:41 · 1328 阅读 · 0 评论 -
自然语言处理(7)—— 词袋模型:概念及python实现
词袋模型(Bow,Bag of Words)不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重(与词在文本中出现的频率有关),类似于将所有词语装进一个袋子里,每个词都是独立的。生成文本的词袋模型分为三步:- 分词(tokenizing)- 统计词频(counting)- 特征标准化(normalizing)原创 2020-07-05 18:38:25 · 13857 阅读 · 0 评论 -
自然语言处理(8)—— TF-IDF:概念与python实现
TF-IDF(Term Frequency - Inverse Document Frequency)表示“词频-逆文本频率”。词频(TF,Term Frequency )表示给定词语在文件或语料中出现的频率(归一化以屏蔽长短文件的差异);逆文本频率(IDF,Inverse Document Frequency)是一个词语重要性的度量。原创 2020-07-05 18:53:14 · 3399 阅读 · 0 评论 -
Word2Vec简明教程:入门、原理及代码实现
2013年,Google团队发表了word2vec工具,可以将所有的词向量化,这样就可以定量的去度量词与词之间的关系,挖掘词之间的联系。本文简要介绍了skip-gram(跳字模型)与CBow(连续词袋模型)的原理以及两种高效训练方法Negative Sampling(负采样)和Hierarchical Softmax(层次Softmax),并给出了具体事例以及代码实现。原创 2020-08-13 21:57:48 · 10345 阅读 · 22 评论