- 博客(92)
- 资源 (6)
- 收藏
- 关注
原创 conda create之后,以前的conda env list 只能看到环境路径 没有环境名称了
可以看见conda环境的名字都回来了,可以使用"conda activate <env_name>"跳转到anaconda的环境。左边这列的"base",指向的路径和其它环境变量安装的路径不一致。1.命令 conda env list。
2025-03-21 17:49:02
527
原创 流式语音识别概述-paddlespeech
而 websocket 支持双工,适用于需要长连接的场景,也可应用于目前的流式 TTS 的方案,可以在一次连接中请求多次,相比 http 请求多次而言,可减少建立连接的次数。除此之外,流式 ASR 使用的是 websocket 协议,使用 webscoket 协议启动服务,可以同时启动包含流式 ASR 和流式 TTS 的服务。http 支持流式返回,可以满足目前的流式 TTS 的方案,即请求一次,返回流式数据,响应返回结束会自动断开连接。访问流式 TTS 服务流程图(左:访问 http 服务;
2025-03-18 14:00:20
484
原创 图像处理常用基础操作
Image.LANCZOS 是 Pillow 中的一种重采样滤波器,用于图像缩放。LANCZOS 滤波器是一种高质量的重采样技术,适合用于图像缩放,尤其是在将图像放大时。#Image.open是pillow中的一个函数,打开和识别字节流对象,将字节流转换为PIL Image对象。#将二进制数据转为字节流,BytesIO是io中的嘞,用于在内存中处理字节流。#不同库对颜色通道的排序不同,PIL默认使用RGB, openv使用BGR。#size[0]:图像宽度,size[1]图像高度。
2025-03-03 10:09:52
210
原创 ollama的问答服务接口
它的请求和响应格式与 OpenAI 的接口不同,更贴近 Ollama 的本地模型调用方式。它的设计目的是为了让开发者能够以 OpenAI 的 API 格式与 Ollama 的模型进行交互。:相比 OpenAI 的格式,Ollama 的原生接口更简洁,适合直接与 Ollama 服务交互。:请求体和响应体的结构是 Ollama 自定义的,与 OpenAI 的格式不兼容。:由于 OpenAI 兼容接口需要额外处理格式转换,可能会有轻微的性能开销。,它的设计更简洁且更适合本地部署的场景。字段传递多轮对话历史。
2025-02-20 16:00:05
800
原创 蒸馏技术简介
蒸馏技术是将教师模型(复杂模型)的知识迁移到学生模型(小型高效)模型的技术,目的是在保留模型性能的同事,降低模型的计算复杂度和存储需求。蒸馏技术的通过模仿教师模型的输出,训练较小的学生模型,实现知识传递。监视模型计算成本高但性能好,学生模型更轻量,速度快,占用内存少。教师模型利用复杂的网络结构和参数学习数据的复杂模式和特征,学生模型模仿教师模式模型的输出,学习数据特征。
2025-02-05 11:16:53
290
原创 dify中调用已有的api接口
在dify编排中,可以构建自己的工具。工具可以调用已有的rest接口。定义schema文件,接入已有的rest接口。在参数中,定义参数类型,也可以设置参数默认值。
2025-01-03 13:45:50
3287
原创 dify环境部署
看到上述信息标识容器正常启动,在浏览器输入http:ip:port可以使用dify服务。执行up -d之后,在线下载镜像和启动容器。dify容器化部署参考官方文档,比较便捷。
2025-01-03 13:40:39
239
原创 xinference linux系统下部署
Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。
2024-09-19 17:51:13
1771
原创 计算机专业之我见
计算机算法为解决问题提供了系统的步骤和方法。无论是开发软件应用、优化搜索引擎、处理大数据,还是进行人工智能的训练,算法都起着至关重要的作用。:表示算法执行所需的时间,通常用“大O”符号表示,如O(n)、O(log n)、O(n^2)等。算法分析主要关注算法的效率和资源使用,通常通过时间复杂度和空间复杂度来衡量。算法是解决问题的一系列明确指令或步骤。计算机专业的应用领域非常广泛,几乎涵盖了所有行业。:表示算法执行所需的内存空间,同样用“大O”符号表示。方向二:专业与个人的匹配度判断。方向三:专业前景分析。
2024-06-13 09:38:27
280
原创 pytorch中的zero_grad()函数的含义和使用
在反向传播计算时,梯度的计算是累加,但是每个batch处理时不需要和其它batch混合起来累加计算,所以对每个batch调用zero_grad将参数梯度置0。#如果不是每个batch清理依次梯度,而是两次或者多次清理,相当于提高了batch批次大小。optimizer.step()#更新参数,梯度被反向计算之后,调用函数进行所有参数更新。optimizer.zero_grad() ,用于将模型的参数梯度初始化为0。optimizer.zero_grad()#将模型参数梯度置为0;
2024-06-07 11:00:00
1080
原创 Excel表格转markdown格式
markdown格式的数据可以存入大模型的知识库中,使用大模型进行excel表格内容的检索温度。3.查找标题部分,有些标题包含合并单元格,将其进行拆解;拆解后转为markdown格式;4.处理body部分,从标题往下,转markdown结构。2.有些表格开头是表格内容描述,将其查找出来;1.通过pandas读取excel文件;
2024-06-04 15:25:24
1291
原创 Linux 使用crontab定时执行shell 脚本
1.编写脚本,并设置脚本为可执行权限chmod a+x 脚本名称。2.设置crontab定时任务,执行。
2024-05-13 09:47:43
786
原创 conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。第二列是文档片段iid,大部分是0。其中,共指标记中,相同数字的表示同一指代簇。
2024-05-08 17:29:57
1040
1
原创 corefBERT论文阅读
corefBERT语言表示模型,可以更好的捕获和表示共引用信息。corefBERT引入一种新的预训练任务MRP(mention refenrece prediction),MRP利用重复出现的提及获得丰富的共指关系。MRP使用掩码方法遮盖一个或者多个提及,模型预测被遮盖住的整个提及。根据上图,词的损失由MRP提及参考预测和MLM遮盖语言建模损失两部分构成。
2024-05-06 13:38:18
949
1
原创 指代消解原理
指代,在下文采用简称或者代称来代替上文已经出现的某一词语,语言学中把这种现象叫做指代现象。指代,是语言学中的一种语言现象,使用指代词来代替文本中已经出现的某个语言单元的表达方式。将代表同一实体的不同表述划分到一个等价集合的过程称为指代消解。指代消解在信息抽取、智能问答等任务中,具有十分重要的作用。
2024-04-30 18:07:23
902
原创 optim.lr_scheduler.StepLR学习
2.定义优化器: 创建一个优化器(如 SGD 或 Adam)并将模型的参数传递给它,近年来Adam使用较多。在训练循环中使用: 在每个训练迭代(或每个 epoch)结束时,调用学习率调度器的 step()方法。在 PyTorch 中,学习率调度器一般与优化器一起使用,实现在训练过程中动态调整学习率。3.定义学习率调度器StepLR: 创建一个学习率调度器,并将其与优化器关联。是 PyTorch 中的一个学习率调整器,按照一定的步长调整学习率。1.构建模型: 构建神经网络模型。
2024-04-24 10:50:55
957
原创 torch.nn.Embedding学习
padding_idx (python:int, optional) – 填充id,比如,输入长度为100,但是每次的句子长度并不一样,后面就需要用统一的数字填充,而这里就是指定这个数字,这样,网络在遇到填充id时,就不会计算其与其它符号的相关性。3.产出计算结果,送入网络的维度是[seq_len, batch_size],产出结果维度是[seq_len, batch_size,embedding_size],最后一个维度为词向量。1.随机初始化词向量层,构建二维表,存储语料中每个词的词向量;
2024-04-24 10:04:03
271
原创 SpanBert学习
根据集合分布,随机选择一段span的长度,之后根据均匀分布随机选择这一段的起始位置,然后按照长度进行遮盖。使用几何分布取p=0.2,最大长度为10,通过采样,平均遮盖长度为3.8个词的长度。2.SBO span boundary objective ,希望被遮盖span边界的词向量,能学习到span的内容。再训练时,取span前后边界的两个词,用这两个词向量加上span中被遮盖词的位置向量,预测原词。最后预测span中原值时计算新损失,即SBO目标的损失。将词向量和位置向量拼接起来,加两层全连接。
2024-04-23 17:17:46
934
1
原创 GELU激活函数
假设输入为X, mask为m,则m服从一个伯努利分布(Φ ( x ) \Phi(x)Φ(x), Φ ( x ) = P ( X < = x ) , X 服 从 标 准 正 太 分 布 \Phi(x)=P(X
2024-04-23 11:34:47
477
原创 常用的np操作
给定一组 (xi, yi),其中 i = 1, 2, ..., n,而且 xi 是有序的,称为「标准点」。两个函数名称都是以 spl 开头,全称 spline (样条),可以理解这两个函数都和样条有关。1)输入:x为特征,y为目标变量. 2)输出:r: 相关系数 [-1,1]之间,p-value: p值。注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。rep:representation 的缩写,那么 splrep 其实生成的是一个「表示样条的对象」「风险平价」模型权重。
2024-04-19 15:04:44
443
原创 机器学习实战-决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
2024-04-15 13:55:55
414
1
原创 时间序列预测负荷、客流量等
时间序列可以进行电力负荷预测、客流量预测等。时间序列使用双向网络的效果优于单项网络,LSTM、GRU网络等可以根据自己的数据进行测试,选择符合自己场景的网络模型。
2024-04-15 13:48:15
583
原创 GPlink进行关系抽取流程梳理
1)读取输入的文本内容,对其进行tokenizer计算,产出计算特征;2)对语料进行shuffle3)计算label4)计算schema5)定义网络定义GlobalPointer,创建实体网络、关系头网络、关系尾网络;6)稀疏交叉熵计算损失值使用BertAdam进行优化。
2024-02-20 11:32:08
596
原创 大模型综述
模型是指人工智能预训练大模型,具有海量参数和复杂架构,用于深度学习任务的模型,拥有强大的处理能力和表征能力,以数据+算力为支撑,借助数据管理、模型训练、评估优化、服务平台、插件等辅助工具,开发基础大模型或行业大模型,再延伸至工业、金融、医疗、交通等下游场景应用。
2024-02-06 10:45:14
2038
原创 推荐系统学习总结
2.1用户行为数据 用户行为数据在网站上最简单的存在形式就是日志。网站运行中产生原始日志,并存在文件系统。1.用户行为在个性化推荐中分为两种:显示反馈和隐形反馈(浏览)。各网站例子:(1)视频网站:显性:用户对视频评分;隐性:用户观看视频日志/浏览视频页面的日志(2)电子商务网站:显性:用户对商品评分;隐形:购买日志,浏览日志
2024-02-06 10:38:00
841
1
原创 JAVA json转xml
首先要去官方下载json-lib工具包https://mvnrepository.com/artifact/net.sf.json-lib/json-lib/2.4目前最新的是2.4的版本,json-lib还需要以下依赖包:通过mvn库可以直接去下载。jakartacommons-lang 2.5jakartacommons-beanutils 1.8.0jakartaco
2024-02-06 10:37:28
1120
1
原创 英文词性标注PTB标准
词性 名称 英文解释 中文解释 例子及注解 CC 并列连词 Coordinating conjunction 并列连接词 and,but CD 基数词 Cardinal number 基数 one,4000 DT 限定词 Determiner 限定词 the, a EX 副词 Existential"there" 存在型there there FW 外来词 .
2022-04-11 16:08:13
710
转载 自然语言表示简史(BERT/ELMO/Word2vec/LDA/Bow/Ohehot,词向量、句向量、优缺点、应用与解决的问题)
本文链接:https://blog.youkuaiyun.com/rensihui/article/details/103284986收起一、自然语言表征与计算机表示自然语言是指一种人类社会中自然地随文化演化的语言,聪明的人类经过万年的积累,并通过后天良久的学习才能理解语言的魅力和含义,机械的计算机当然不能如此容易地表达出来。要了解自然语言的计算机表示,我们首先从发展、工业落地更加成熟的图像领域说起,图像使用非负数的矩阵表示像素点,是低层次的,连续的数据和特征。图像的任务,如分类...
2021-05-15 10:31:45
1005
原创 基于cnn和rnn的文本分类实践
本文主要介绍在文本分类中,使用CNN网络和RNN网络的实践,其中CNN又分为maxPool和k-maxpool。可以直接在juputer执行。代码已经上传githubhttps://github.com/yixiu00001/text-classify-cnn-rnn/blob/master/README.md1.CNN+maxPooltext-classification-cnn-maxpool...
2018-04-28 16:28:17
1821
1
g2pv.json测试数据源文件
2019-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人