
AI
文章平均质量分 82
AI relates
伊布拉西莫
思想上的强者,行动上的弱者。
展开
-
卷积神经网络(CNN)入门学习笔记
CNN,全称,是一种专门用来处理图片、语音、文本等结构化数据的神经网络。,一步步提取特征,最后做出判断。原创 2025-05-27 14:45:33 · 1308 阅读 · 0 评论 -
N-gram语言模型原理与实战教程
N-gram 是自然语言处理中,将文本按连续的 N 个词(或字符)划分的技术。Unigram,单个词Bigram,两个连续词 - 一阶马尔科夫Trigram,三个连续词 - 二阶马尔科夫例如句子:“我 爱 自然 语言”,它的 Bigram 是:“我 爱”,“爱 自然”,“自然 语言”。一句话:一阶马尔科夫(Bigram):二阶马尔科夫(Trigram):N-gram 是一种基于统计的方法,通过计算连续 N 个单词组成的子序列出现的概率,来预测下一个单词或评估整个句子。Unigram(一元模型)原创 2025-05-22 17:29:32 · 350 阅读 · 0 评论 -
【通俗到爆】什么是语义嵌入和向量
词向量→ 单词的数字表达语义嵌入→ 句子/段落的数字表达相似意思,向量越近。原创 2025-05-14 10:40:36 · 587 阅读 · 0 评论 -
spaCy基础入门
功能方法 / 属性说明加载语言模型加载指定语言模型文本分析nlp(text)对文本进行 NLP 分析分词拆分为单词 Token词性标注token.pos_查看单词的词性依存句法分析token.dep_token.head分析句子成分依赖关系命名实体识别提取命名实体(人名、地名、组织等)句子分割将文本自动拆分为句子词向量获取词向量(中大型模型)相似度计算计算两个词或文本的相似度功能NLTKspaCy分词doc对象自动分词词性标注(POS)pos_tag()token.pos_原创 2025-05-13 16:32:03 · 421 阅读 · 0 评论 -
NLTK进行文本分类和词性标注
词性标注将句子中的单词以不同语义功能或语法功能进行分类。在英语中,主要的词性为名词、代词、形容词、动词、副词、介词、限定词和连词,而词性标注正是为文本中的每个单词或词元附加这些类别之一。VERB:动词(所有时态和方式)NOUN:名词(普通名词、专有名词)PRON:代词ADJ:形容词ADV:副词ADP:介词(前置词、后置词)CONJ:连词DET:限定词NUM:基数PRT:小品词或其他功能词X-other:外来词、错别字、缩写.:标点符号。原创 2025-05-13 11:58:49 · 483 阅读 · 0 评论 -
NLP 和大模型技术路线
✅ 推荐学习路径:NLP 基础 → Transformer 架构 → 大语言模型原理 → LangChain / RAG 应用 → 微调优化 & 私有部署👉 这就是目前最主流、能快速落地项目的 LLM 工程师进阶路线!原创 2025-05-06 15:35:35 · 960 阅读 · 0 评论 -
OpenAI roles: user/system/assistant
OpenAI 的对话系统基于一个角色系统来控制对话的流向和结构。在这个系统中,模型会根据不同的角色(如 system、user 和 assistant)来处理和生成对话内容。每个角色都有不同的功能和任务,确保对话更加自然且符合预期。常见的角色有:•system(系统角色):用来设定对话的规则和上下文。•user(用户角色):发起对话的用户,通常是提问的一方。• **assistant(助手角色):**回答用户问题的 AI 系统。system 角色是对话的设置者或导演。原创 2025-04-07 11:11:25 · 494 阅读 · 0 评论