
NLP,大模型
文章平均质量分 68
机器学习算法,深度学习,大模型,NLP
木下瞳
这个作者很懒,什么都没留下…
展开
-
异步调用大模型
【代码】异步调用大模型。原创 2025-03-12 16:17:08 · 210 阅读 · 0 评论 -
vllm部署LLM(qwen2.5,llama,deepseek)
-gpu-memory-utilization 0.2 gpu 显存占用,如果太高,我最开始 0.98,调用会崩掉。--max_model_len 4096 模型能够处理的最大序列长度(以token为单位),显存不够报错了,可以调小。"temperature": 0.7, 生成文本的随机性,值越小,创造能力越强,输出更加多样,适合创造场景。),会降低之前已经出现在生成文本中的词语被再次选中的概率。--served-model-name qwen2_5_1_5 模型名称定义,不是模型路径。原创 2025-02-23 00:30:31 · 1565 阅读 · 0 评论 -
React Agent 自定义实现
用的智谱 glm-4-air,如果换了模型,效果还不太稳定,需要调 prompt。定义两个工具,一个是 tavily 的搜索,去官网开通账号就可以获得一个 api,免费调用 1000 次;一个工具是根据名字查询身高的自定义函数try:except:"张三": 180,"李四": 175,"王五": 170,"赵六": 165,"钱七": 160,"孙八": 175,"周九": 170,"吴十": 165,"郑十一": 180,"王十二": 175,"李十三": 170,原创 2024-10-15 23:45:37 · 1361 阅读 · 0 评论 -
prompt 工程案例
而且评判的数据挺重要的,就像我这个需求应该是分类任务对吧,那结果应该有一个,对就对,不对就不对,我调了几版 prompt ,最好的准确率是 39%,就去数据及理由,有些数据光是人去判断都不太好判断,或是有歧义的,更别说模型了,例如。prompt 入门门槛我觉得比较低,网上随便找资料大概都知道编写模版套路,但效果得结合实际业务情况调优好几天,有些还得通过编程进行辅助,比如预处理工具,提取地名啥的,匹配标签啥的,再去输入给大模型。数据,专业描述的文本,还有对应的 label,原创 2024-04-04 16:22:24 · 1948 阅读 · 0 评论 -
大模型 web ui 界面 text-generation-webui
使用 text-generation-webui 生成大模型界面,这个是专门用于文本对话生成的 web ui 界面克隆或下载到本地,我是想试试这个怎么样,我的环境:win10, cpu所以在模型方面找了小模型来试试,messages,原创 2024-04-01 20:38:27 · 2672 阅读 · 1 评论 -
bert 适合 embedding 的模型
直接使用 bert 先 embedding 然后找出相似的文本,效果都不太好,试过 bert-base-chinese,bert-wwm,robert-wwm 这些,都有一个问题,那就是明明不相似的文本却在结果中变成了相似,真正相似的有没有,例如:手机壳迷你版,与这条数据相似的应该都是跟手机壳有关的才合理,但结果不太好,明明不相关的,余弦相似度都能有有 0.9 以上的,所以问题出在 embedding 上,找了适合做 embedding 的模型,再去计算相似效果好了很多,合理很多。原创 2024-03-27 00:04:04 · 2622 阅读 · 0 评论 -
图片拼接,并显示文字
有一些图片,每张图片有对应的文本,需要一张一张拼接为 N 行 M 列的形式,每张图片的文本显示在它下方,文字没有换行,换行的一直有问题,不过一般文本也不会太长。如果只想拼接图片,把这几行注释掉就可以。原创 2024-03-24 00:36:41 · 364 阅读 · 0 评论 -
hanlp,pyhanlp 实现 NLP 任务
【代码】hanlp,pyhanlp 实现 NLP 任务。原创 2024-03-13 00:01:33 · 754 阅读 · 0 评论 -
bert 相似度任务训练简单版本,faiss 寻找相似 topk
但其实在相似度任务中,我们每一条数据都是【text1\ttext2\tlabel】的形式,其中 label 代表相似度,可以给两个文本打分表示相似度,也可以。可以看到还是较好的学习了我数据特征:只要两文本中有一个地址相似我就作为相似,标签为 1,否则 0。现在我搞了一个招聘数据,里面有办公区域列,处理过了,每一行代表【地址1\t地址2\t相似度】,0 代表不相似,1 代表相似,他这篇文章利用了这种思想,对新手还挺有用的。只要两文本中有一个地址相似我就作为相似,标签为 1,否则 0。,相当于二分类任务了。原创 2024-03-01 21:55:40 · 1026 阅读 · 0 评论 -
LDA 关键词提取
LDA(Latent Dirichlet Allocation)确实是一个用于从大量文档中提取关键词的算法,但它并不是直接基于语义去提取关键词,而是通过建立文档主题的概率分布模型来间接揭示文档的关键词结构。LDA是一种统计模型,特别是一种主题模型,由David Blei、Andrew Ng和Michael Jordan在2003年提出。假设: 每篇文档是由多个潜在主题(latent topics)按照一定概率混合而成,每个主题又对应着一组关键词的概率分布。原创 2024-02-25 15:28:09 · 1670 阅读 · 0 评论 -
gensim 实现 TF-IDF;textRank 关键词提取
含义:: 词频,是指一个词语在当前文档中出现的次数。它衡量的是词语在文档内部的重要性,直观上讲,一个词语在文档中出现越频繁,表明它对该文档内容描述的贡献越大。: 逆文档频率,是一个词语在整个文档集合中的稀有度度量。IDF值由所有文档的数量除以包含该词语的文档数量,然后取对数得出。一个词语在越多的文档中出现,其IDF值就越小,反之,出现在少数文档中的词语IDF值较大,表示这个词具有更高的鉴别力。TF-IDF计算公式其中,t是词语,d是文档。优点:突出重点。原创 2024-02-25 15:17:58 · 1226 阅读 · 0 评论 -
excel标记文本中的关键词加红加粗
有这么一张表,关键词为 word,文本内容为 text,现在想把 text 中的 word 标红加粗,如果数据量少,文本段手动标还可以,多起来就不太方便了。原创 2024-02-24 00:42:41 · 1115 阅读 · 0 评论 -
gpu 运行 python 代码
用服务器(linux)去计算任务时,通过以下代码设置了使用 gpu 去跑,但去使用 nvidia-smi 查看没有任何进程,感觉还是用得 cpu 去跑的。只有当你的代码中包含了能够利用CUDA进行计算的库,并且明确将数据和计算任务转移到了GPU上时,才会真正启动GPU进行计算。如果你的程序中没有涉及任何GPU加速计算的库(如PyTorch、TensorFlow等),即便设置了。,程序本身也不会利用GPU进行计算,因为它并不具备访问和使用GPU的能力。因此,在你目前的普通Python程序中,设置。原创 2024-02-22 22:54:07 · 828 阅读 · 0 评论 -
vllm 库调用大模型
vllm 这个库目前只能在 linux 上用, win 是用不了的,pip 安装不了,这里弄了一个调用示例代码。原创 2024-02-17 22:47:35 · 2590 阅读 · 0 评论 -
bert分类模型使用
使用 bert-bert-chinese 预训练模型去做分类任务,这里找了新闻分类数据,数据有 20w,来自数据 20w ,18w 训练数据,1w 验证数据, 1w 测试数据,10个类别我跑起来后,预测要7天7夜,于是吧数据都缩小了一些,每个类别抽一些,1800 训练数据,150 验证数据, 150 测试数据,都跑了 1.5 小时, cpu ,电脑 gpu 只有 2g 显存,带不起来。原创 2024-02-04 22:53:59 · 1804 阅读 · 0 评论 -
bert+np.memap+faiss文本相似度匹配 topN
使用 bert-base-chinese 预训练模型将文本数据向量化后,使用 np.memap 进行保存,再使用 faiss 进行相似度匹配出每个文本与它最相似的 topN此篇文章使用了地址数据,目的是为了跑通这个流程,数据可以自己构建np.memap :是NumPy库中的一种内存映射文件(Memory-Mapped File)对象,它允许你将硬盘上的大文件以类似数组的方式访问和操作,而不需要一次性将整个文件加载到内存中。当你创建一个对象时,实际上是创建了一个与磁盘文件对应的虚拟数组。原创 2024-02-03 13:38:44 · 1968 阅读 · 0 评论 -
bert提取词向量比较两文本相似度
使用 bert-base-chinese 预训练模型做词嵌入(文本转向量)embedding[:, 1:-1, :] 这一行的意是以下,数据类型张量。下面这段代码是一个传入句子转为词向量的函数。原创 2024-01-29 23:08:51 · 3321 阅读 · 1 评论 -
bert新闻标题分类
代码输出结果会生成一个文件夹:myfinetun-bert_chinese 里面存放的是模型,最后会生成一个 best 模型,我这里没跑完哈,所以结果不全。使用 bert 完成文本分类任务,数据有 20w,来自。原创 2024-01-29 00:04:25 · 1252 阅读 · 0 评论 -
bert实现完形填空简单案例
【代码】bert实现完形填空简单案例。原创 2024-01-28 19:40:00 · 941 阅读 · 0 评论 -
bert预训练模型下载
可以看到我们最需要的模型是又提供的,models 里面是提供的模型,mode_download.py 是提供的下载模型的脚本,我用了这个脚本下载的,点开可以看到里面的代码,复制一份到本地 py。旁边有提供下载命令,在你想保存的路径下打开 cmd,运行这个命令就会下载了,下好后会生成以个 dataroot 的文件夹,里面有我们要的东西。我下载 bert-base-chinese,但这个网站下载是要钱的,也不贵,点击下面购买流量包。但即使是翻出去了也访问不了,我遇到的情况,所以找到了其他网站。原创 2024-01-28 18:04:53 · 2207 阅读 · 0 评论 -
RNN预测下一句文本简单示例
因此,发展出了更复杂的变体,如LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Units),它们通过门控机制更好地保留长期依赖信息。与传统的前馈神经网络不同,RNN能够通过其循环结构捕获序列内部的时间依赖性或顺序信息。在RNN中,每个时间步(timestep)的隐藏状态不仅取决于当前输入,还与上一时间步的隐藏状态有关。根据句子前半句的内容推理出后半部分的内容,这样的任务可以使用循环的方式来实现。具体代码如下,写了注释。原创 2024-01-27 21:02:27 · 634 阅读 · 0 评论 -
kmeans聚类选择最优K值python实现
来源:https://www.omegaxyz.com/2018/09/03/k-means-find-k/下面利用python中sklearn模块进行数据聚类的K值选择数据集自制数据集,格式如下:维度为3。①手肘法手肘法的核心指标是SSE(sum of the squared errors,误差平方和),其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。手肘法的核心思想是:随着聚类数k的转载 2022-04-23 17:04:53 · 1184 阅读 · 1 评论 -
win下‘终端’‘控制台’‘命令行’命令
了解更多关注微信公众号“木下学Python”吧~都是指 cmd1.cd命令无效https://blog.youkuaiyun.com/u010603823/article/details/521826792.输出echo hello表示在终端输入了 hello 接下来的行数就是在终端上看到的输出3.系统找不到路径可能是某个路径的的文件夹命名不能识别,找出此路...转载 2018-07-26 17:24:01 · 1692 阅读 · 0 评论