- 博客(108)
- 资源 (30)
- 收藏
- 关注
原创 三十二、命名实体识别概述
命名实体识别(Named Entity Recognition,NER)就是从一段自然语言的文本中找出相关实体,并标注其位置及类型。所谓的命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、机构名、日期时间和专有名词等。下图给出了NER具体的示例,示例中的命名实体用特殊的颜色表示,比如地名、日期和时间。目前,NER的研究主要分为工业界和学术界,两者的侧重点不同。在学术界中,NER一般包括3大类()和7小类(
2025-05-05 09:35:43
942
原创 使用 vllm 部署 Llama3-8b-Instruct
vLLM 是一个用于大型语言模型(LLM)推理和服务的快速且易于使用的库。/mnt/workspace/models路径下执行。使用 SHA-256 算法检查文件(可选)/mnt/workspace路径下执行。另外一个terminal窗口执行。另外一个terminal窗口执行。completion模式。
2025-05-05 09:10:04
353
原创 三十一、基于HMM的词性标注
首先创建项目工程目录words_tag,在words_tag目录下创建源码文件hmm.py、tagging.py和run.py,以及目录文件corpus,用于存储renmin.txt数据文件。在本章中使用HMM模型实现了词向标注的任务。从程序运行结果可以看出,HMM算法能够给出句子中每个单词的词性。该项目主要由3个代码文件组成,分别为。
2025-05-05 09:07:53
234
原创 一、大模型实现文本生成图像
本案例介绍了如何使用阿里云百炼模型实现文本生成图像。如何使用业务空间申请和创建API Key文本生成图像的具体实现通义万相-文生图V2系列模型具体介绍模型建议:推荐优先选择文生图V2版模型。若需要高质量图像,选择文生图2.1(或),其中更具性价比。若考虑成本,可选择文生图2.0(
2025-05-05 08:36:10
239
原创 三十、词性标注简介
不同的工具会采用不同的标注体系,常见的词性标注工具包括jieba、HanLP、NLTK和ICTCLAS等。目前,中文分词的主流词性标注工具是jieba分词,下图列举了该工具的词性标注规范。名词在NLP中对应的任务是命名实体识别,而动词则是理解语言中对象的动作,包括动作的主观性和客观性。词性标注(Part Of Speech tagging,POS taging)也被称为语法标注或词类消疑,是指将语料库中单词的词性按其含义和上下文内容进行标记的文本数据处理技术。下图展示了词性标注的案例。
2025-04-25 14:02:39
244
原创 1.阿里云快速部署Dify智能应用
宝塔面板是一款功能强大且易于使用的服务器管理软件,支持Linux和Windows系统,通过web端可视化操作,优化了建站流程,提供安全管理、计划任务、文件管理以及软件管理等功能。
2025-04-14 08:20:24
1111
原创 LLaMA3微调中文医疗数据集(三)
LLaMA-Factory 是一个用于大型语言模型(LLM)微调的工具,它旨在简化大型语言模型的微调过程, 使得用户可以快速地对模型进行训练和优化,以提高模型在特定任务上的性能。这个工具支持多种预训练的大型语言模型,例如 LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、 Gemma、Baichuan、ChatGLM 和 Phi 等。LLaMA-Factory 旨在降低大型语言模型微调的门槛,使得更多的研究者和开发者能够利用这些强大的模 型来解决具体的实际问题。
2025-04-09 07:13:52
1020
原创 使用 LLaMA-Factory 微调 llama3 模型(二)
LLaMA-Factory 是一个用于大型语言模型(LLM)微调的工具,它旨在简化大型语言模型的微调过程, 使得用户可以快速地对模型进行训练和优化,以提高模型在特定任务上的性能。这个工具支持多种预训练的大型语言模型,例如 LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、 Gemma、Baichuan、ChatGLM 和 Phi 等。LLaMA-Factory 旨在降低大型语言模型微调的门槛,使得更多的研究者和开发者能够利用这些强大的模 型来解决具体的实际问题。
2025-04-07 07:39:27
1246
原创 阿里云工作空间与Ollama(一)
Ollama 是一个开源框架,旨在帮助用户在其本地计算机上轻松地管理和部署大型语言模型(LLM)。它提供了一个轻量级且可扩展的解决方案,支持多种开源大模型,包括但不限于 Llama 、Gemma、Mistral 等,并允许用户自定义和创建自己的模型。本地化部署:允许企业或个人在本地环境中部署大型语言模型,提高计算效率并降低延迟。模型管理:Ollama 支持多种大型语言模型,用户可以根据需要选择和安装不同的模型。
2025-04-07 07:36:50
831
原创 二十四、TextCNN的原理和实现
Yoon Kim在2014年将卷积神经网络CNN应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好地捕捉局部相关性
2022-03-25 10:33:28
2096
原创 二十三、卷积神经网络概述
卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling层)
2022-03-25 10:31:52
815
原创 十九、Pytorch中的数据加载
1. Pytorch中DataSet的使用方法1.1 DataSet加载数据的方法DataSet是Pytorch中用来表示数据集的一个抽象类,在torch中提供了数据集的基类torch.utils.data.Dataset,继承这个基类,我们能够快速地实现对数据的加载**.**__len__:返回数据集大小; __getitem__:可以通过下标方式获取数据1.2 DataSet类的源码1.3 DataLoader使用方法定义dataset实例设置读取数据batch的大小,常用12
2022-01-17 16:46:24
578
原创 十五、中文词向量训练二
中文词向量训练二:Gensim工具训练中文词向量wiki.zh.text.seg为输入文件,wiki.zh.text.model和wiki.zh.text.vector为输出文件,model存储了训
2021-12-06 12:31:48
837
原创 十三、布式词向量模型
分布式词向量模型1.连续词袋模型1.1 连续词袋模型的概念CBOW模型全称为Continuous Bag-of-Words。CBOW是利用上下文信息来预测中心词。给定一个句子:“Pineapples are spiked and yellow”。中心词:“spiked”;上下文:“Pineapples, are, and, yellow”。中心词所限定的语义就被传递到上下文的词向量中,其他带刺植物的向量表示就会靠近Pineapples。1.2 连续词袋模模型的原理和计算过程输入层
2021-12-02 14:38:50
368
原创 十二、神经网络语言模型
神经网络语言模型1.NNLM的原理1.1 语言模型假设S表示某个有意义的句子,由一串特定顺序排列的词w1,w2,..,wnw_1,w_2,..,w_nw1,w2,..,wn组成,n是句子的长度。目的:计算S在文本中(语料库)出现的可能性P(S)。1.2 神经网络语言模型直接从语言模型出发,将模型最优化过程转化为求词向量表示的过程.2. NNLM的网络结构2.1 NNLM的结构图NNLM网络结构包括输入层、投影层,隐藏层和输出层2.2 NNLM的计算过程根据前面的
2021-11-29 17:03:23
2146
原创 十一、词向量模型
1.独热编码1.1 独热编码的概念在英文中称作One-Hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。假如有三种颜色特征:红、黄、蓝。红=1,黄=2,蓝=3;红<黄<蓝;即红色:1 0 0 ,黄色: 0 1 0,蓝色:0 0 11.2 独热编码表示词向量John likes to watch movies. Mary likes too.John also likes to watch football games.1
2021-10-13 16:52:51
786
原创 十、词向量基础
1.计算机中如何表示一个词语和frog最接近的前7个单词有哪些1.1 向量空间分布的相似性计算机中表示的词语需要满足向量空间分布的相似性,向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用.1.3 向量空间分布子结构计算机中表示的词语同样需要满足向量空间子结构,学习的词向量模型最终目标是将词向量作为机器学习,特别是深度学习的输入和表示空间。2. 词向量的概念及问题2.1 词向量的概念在自然语言处理的任务中,词向量(
2021-09-13 09:42:28
403
原创 九、N-gram语言模型
1.语言模型语言模型的作用是根据文本输入 ,计算文本内容是句子的概率。2 N-gram模型介绍2.1 语言模型概念如果我们有一个由m 个词组成的序列(或者说一个句子),我们希望计算句子的概率。根据链式规则,可得根据马尔可夫假设可得:2.2 N-gram模型简介N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。
2021-09-08 10:15:14
5075
原创 八、朴素贝叶斯中文分类实战
1.朴素贝叶斯中文分类实战文本分类的流程如下图所示:朴素贝叶斯中文分类的目录结构中文分类的目录机构包括停用词文件、训练集文件和和测试集文件,具体内容如下图所示:2 数据准备与处理2.1 数据集介绍案例中使用的数据是一些新闻数据,每条数据包含了新闻类型和新闻标题。类型有以下四种:财经类、娱乐类、健康类和体育类。2.3 加载数据load_data函数的功能是读取训练数据和测试数据:titles_list和labels_list中分别存放文本标题和对应的标签信息。# 加载数据
2021-09-07 15:30:47
679
1
原创 七、朴素贝叶斯中文文本分类
1.朴素贝叶斯中文文本分类中文分词停用词朴素贝叶斯中文分类举例:新闻文档分类朴素贝叶斯中文分类的具体过程:加载停用词、中文分词、文本向量化、模型训练和保存、模型的加载和预测。2 中文分词2.1 中文的分词的作用在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。2.2 对文档分词常用的分词工具包括:jieb
2021-09-06 11:22:39
586
原创 六、朴素贝叶斯案例分析
1.朴素贝叶斯案例分析朴素贝叶斯案例分析的内容有:项目概述:屏蔽社区留言板的侮辱性言论项目实战:朴素贝叶斯案例的实现数据集信息朴素贝叶斯案例的数据包含6条样本,具体有3个正样本和3个负样本,标签0表示样本为正样本,标签为1表示样本为带有侮辱性的词汇。2 项目概述2.1 屏蔽社区留言板的侮辱性言论以在线社区的留言板为例。为了不影响社区的发展,要屏蔽侮辱性的言论。对此问题建立两个类别:侮辱类和非侮辱类,使用1和0分别标识.3 项目实战3.1 屏蔽社区留言板的侮辱性言论的具体
2021-09-02 10:05:43
1214
原创 五、朴素贝叶斯分类算法
1.朴素贝叶斯分类算法的基本内容:概率基础朴素贝叶斯分类器朴素贝叶斯的核心思想是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2 概率基础2.1 随机变量的先验、条件、联合概率先验概率:事件发生前的预判概率。P(X)条件概率:一个事件发生后另一个事件发生的概率。P(X1lX2), P(X2lX1)联合概率:是指两个事件同时发生的概率。X=(X1,X2), P(X)= P(X1,X2)相关:P(X1,X2)= P(X2lX
2021-09-01 09:41:10
327
原创 四、自然语言处理的主要挑战
1.自然语言处理的主要挑战1.1 自然语言处理的主要挑战包括基本问题主要困难NLP的研究内容有5大难点:没有规律、自由组合、开放集合、知识依赖和上下文信息。2 NLP的基本问题2.1 基本问题之一:形态学习问题研究词有意义的基本单位——词素的构成问题单词的识别/汉语的分词问题词素:词根、前缀、后缀、词尾例如:人,老虎=老+虎,图书馆=图+书+馆2.2基本问题之二:句法问题研究句子结构成分之间的相关关系和组成句子序列的规则为什么一句话可以这么说也可以那么说?如何建立快速
2021-08-23 11:25:19
4603
1
原创 三、自然语言处理研究内容
1 自然语言处理的研究内容机器翻译和问答系统自动文摘和文档分类文字编辑和自动校对语音识别和语音合成2 机器翻译和问答系统2.1 机器翻译机器翻译(Machine Translation,MT):实现一种语言到另一种语言到自动翻译。应用:文献翻译、网页辅助浏览器等.代表系统:Google、百度、有道翻译等.机器翻译的前景非常广阔,包括文化、商贸、旅游等。2.2 问答系统通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动搜索答案并作出相应的回答。
2021-08-19 16:49:45
1965
原创 二、自然语言处理发展历程
1.自然语言处理发展历程自然语言处理的发展历程经历了兴起阶段、符号主义、连接主义和深度学习阶段。兴起阶段:自然语言处理的萌芽期,代表人物包括图灵和香农。符号主义:自然语言处理的发展器,代表任务是乔姆斯基和他的生成文法。连接主义:自然语言处理的发展器,代表方法为统计机器学习。深度学习:自然语言处理的鼎盛期,代表人物为深度学习三巨头:Yoshua Bengio、Yann LeCun、Geoffrey Hinton。2 兴起阶段2.1 致命密码:一场关于语言的较量**苏格兰女王玛丽能使用了
2021-08-19 16:32:32
4247
原创 一、自然语言处理概述
1.自然语言处理概述1.1 文本大数据的机遇和挑战语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具.人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上.中国互联网上有87.8%的网页内容是文本表示的.1.2 全世界网页数量正以指数速率增长中文网页检索的最高准确率不足40%。1.3 跨语言通讯和信息获取技术具有重要的用途随着社会全球化时代的到来,机器翻译市场潜力巨大;涉及的领域包括文化、商贸、旅游、体育等1.4 总结自然语言处理要解决的问
2021-05-31 16:29:16
1344
多个对话框的组合(MFC类库)
2009-10-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人