- 博客(166)
- 收藏
- 关注
原创 AI爬虫?爬!
你以为这就完了吗,不,上面的内容没有一点挑战性,有挑战的是我们本地部署源代码,来替代调用爬虫官网获取的api的作用(你是否还在为大模型的key而感到忧伤和囊中羞涩,openrouter.ai,目前可免费白嫖多个大模型,代码如下。最后得到outputs目录(要注意免费api的速率限制)然后是爬虫代码(下面这段代码就是实现的官网的功能。还有一个用上面免费的大模型来进行对网页的分析。然后得到结果,将结果保存到txt中。8)加入ai功能实现官网的能力。会出现hello world。5)启动服务,第一个服务。
2025-04-03 19:16:53
138
原创 从头到尾训练一个百万参数的GPT模型吧
需要了解的前提:1将文本转换为token id作输入用到的库!2训练所需的环境验证gpu是否可用3数据集这个下载的训练集很大,10g左右,我们用不了这么多,处理一下先放到文件夹里面打印一下数据集内容切分数据集,只要其中的一部分,训练集留60万条,测试集留10万条记得将data文件夹中截断之前的数据集删掉将数据集转换为h5格式查看一下h5的内容4介绍transformer流程输入的 tokens 会被转换为 embeddings,并与位置(position)信息相结合。模型包含 64 个。
2025-03-28 16:27:26
663
原创 开源项目解读(https://github.com/zjunlp/DeepKE)
将下载好的checkpoint_bert.zip移动到ner文件夹下并解压缩,然后运行,记得重命名为checkpointints。测试句子有格式要求:{[0][PER]欧阳菲菲}演唱的{[1][SONG]没有你的夜晚},出自专辑{[2][ALBUM]拥抱}修改relation_extraction中的demo.py的路径和tokenizer,完整代码如下。7.将下载好的re和ner对应的文件放到对应的位置。修改选项2和选项3中对应的模型的路径为本地路径。是一个开源的知识图谱抽取与构建工具,支持。
2025-03-27 13:26:41
59
2
原创 基于 Qwen2.5-3B-Instruct 进行 GRPO(Guided Reward Policy Optimization)奖励微调,以优化模型的格式化输出和数值正确性
3)阿里云这个环境下载openai的数据集会报错,需要在本机提前下载下来,然后压缩,将压缩后的main弄到py文件同级目录下。进行参数高效微调(PEFT,Parameter Efficient Fine-Tuning。1.用colab的云服务器进行训练,但是这个会断,不稳定(优点是环境安装很简单,不会报错)补充一下,在阿里云环境中,可以将conda环境加入jupyter,这样就可以一块块运行了。,以优化 GPU 内存占用,并加速推理。,包括标准化问题和答案,使其适用于。2)下载代码中用到的库。
2025-03-25 18:33:42
360
1
原创 用免费的github的key调用gpt实现一个简单的rag自动打分评测系统,不用任何框架
10. 从pdf提取的文本中找到与问题最相似的前两个文本(通过向量找)8.计算两个向量(用户问题和检索到的文本块)的相似度。12.结合上步给出的答案以及真正的答案进行打分。与每个 chunk 的向量计算余弦相似度。4.将上个步骤提取的文本按固定长度分段。6.从指定pdf文件中提取文本内容。返回最相关的文本块(用于回答生成)11.定义提示词实现对问题的回答。相似度排序 → 选前 k 个。5.初始化openai实例。生成 query 向量。7.将文本转换为向量。用户输入 query。
2025-03-24 14:49:20
243
原创 Auto Playwright 项目实战
就是相当于你不用编写选择器了,直接通过文本完成测试,这其中如果想要彻底自动化测试一个项目,需要保证大模型生成的文本ok,而且大模型能够通过文本找到对应的元素。const firstResultTitle = await auto('获取第一个搜索结果的标题文本', { page, test });await auto('在搜索框中输入"Playwright测试"', { page, test });await auto('点击搜索按钮', { page, test });// 获取第一个搜索结果的标题。
2025-02-27 10:38:59
265
转载 关于函数调用和智能体
所谓的agent,agent,到底什么是agent呢?我的理解是agent就是结合了某个甚至某些函数调用或者仅仅依靠单个或者多个提示词完成某一系列任务的智能体就是agent,agent不单单指某一方面,而是所有方面,例如:一个帮助企业完成数据分析的agent,一个能够自动爬取新闻的agent,下面是实际应用1.函数调用利用 ,LLMs 可以很方便的将自然语言指令转变为相关的函数调用,例如:可以把“给张三发一封邮件询问下他下周五下午是否需要一杯咖啡” 这样的提示转换为 函数调用。1)OPENAI示例:
2025-02-24 14:35:19
25
原创 大模型扩充上下文长度
假设我们有一个原始的上下文长度为 512 的模型,使用了位置编码方法来表示序列中的每个词的位置。如果要扩展到 1024 的上下文长度,传统的做法是直接为新的 512 个位置生成新的编码,并直接插入模型中。也就是说,如果训练的时候上下文提高,比如512,变为1024,就会花更多的钱,那么我训练是512,推理的时候上下文用1024可以吗,也可以,但是大模型回答效果会不好,会胡言乱语,这就是上面问题的答案。这样,模型的训练和推理都可以在扩展后的上下文中进行,而不需要完全重新计算和调整所有的编码。
2025-02-20 17:31:37
307
原创 开源项目Perplexica-master
项目clone后,修改配置,项目根目录config.toml 填写对应的大模型的key就行。前端项目,ui文件夹下的.env文件填写。大模型的key可以用groq的,免费(前后端项目各npm i 安装依赖。
2025-02-13 17:33:33
176
原创 智谱平台的检索增强教程与实践与问题发现
1)多个pdf上传存在延迟,表现为问针对于pdf2的问题,回答的依旧是pdf1的相关内容。3)knowledge-id和emedbing-id的联系与关系。教程很简单,但是我发现目前单个知识库好像存在下面问题。2)可不可以指定document-id来进行检索增强。
2025-02-10 10:30:05
196
原创 python:csv文件批量导入mysql
4.将csv文件中的数据插入到mysql中。1.导入sql文件到数据库中。2.插入假数据到对应的表格中。3.查看csv文件的列名。
2025-02-06 17:06:57
340
原创 将打包好的前端代码包转换为apk
昨天闲来无事突然想到能不能将打包好的代码包转换为apk,前端代码包就是可以适配移动端端网页,但是是用react写的,所以无法用hbuilderx打包,也不愿意再更改react native了,所以搜索了一下,发现还真有办法可以解决这个问题。
2025-02-06 10:12:00
425
原创 R语言速通
因子与普通的向量不同,它不仅存储数据的值,还存储这些值的。向量中的每一个元素可以通过下标单独取出,但需要注意的是:R 语言中的"下标"不代表偏移量,而代表第几个,也就是说是从 1 开始的!R 语言为线性代数的研究提供了矩阵类型,这种数据结构很类似于其它语言中的二维数组,但 R 提供了语言级的矩阵运算支持。数据框每一列都有一个唯一的列名,长度都是相等的,同一列的数据类型需要一致,不同列的数据类型可以不一样。3.判断和python一样,if,else if,else,多了个switch(),
2025-02-05 14:48:47
1018
原创 kaggle上传自己的文件并运行
然后你的文件就在根目录了,和input 和kaggle同级,你也可以复制到kaggle/working中(output的路径)cp -r /kaggle/input/你的文件名 随便一个名字。将自己用到的文件压缩,将压缩包通过dataset上传的方式上传到input。然后在终端,解压缩,cd /
2024-12-31 17:35:59
439
原创 小结一下最近的开发
4)用自己租的云服务器实践了nginx的使用,ubuntu的宝塔部署,windows的nginx部署,域名的解析绑定,证书的绑定,主要还是nginx配置的编写。1)langgraph+glm的开发(实现了一些bot,聊天bot,结合搜索的聊天bot,短期记忆的聊天bot)3)开发了一个前端测试工具(熟悉了playwright框架,bash脚本的编写以及subprocess库的使用)2)一些爬虫的开发(爬了一些面试网站的面试题)
2024-12-26 18:49:48
123
原创 windows服务器部署nginx,部署前后端项目记录
修改下nginx.conf就可以成功访问域名出现welcom to. nginx,就不用再访问ip了。然后现在是http:// www.xxxxx.top访问。首先要域名解析(在哪个云买的域名就去哪里解析)然后是配置多个域名,部署多个项目。下一步我们弄成https访问。
2024-12-18 11:48:38
205
原创 加密python项目并打包
在打包后的可执行文件中,资源文件的路径需要特殊处理,因为 PyInstaller 会将资源解压到临时目录中(你需要修改 Flask 代码,让它能够正确访问模板和静态文件。最终会生成一个加密后的可执行文件,既保护了源码,又能直接运行。先测试加密后的 Flask 项目是否能正常运行。Flask 应用将启动,并且能正确加载。运行后,PyArmor会生成一个。假设你有一个Python脚本。将加密代码打包成可执行文件。目录,找到生成的可执行文件(PyArmor 可以结合。
2024-12-18 09:57:23
1218
3
原创 写点提示词?
Sheila 使用 GPT-4 对客户信息数据集进行聚类和营销策略设计,结果显示 LLM 在识别模式和生成报告方面表现优异。通过 CO-STAR 框架,提示内容更具针对性,确保响应满足特定需求。:为 LLM 设定任务规则,让其仅分析指定文本并按结构化格式输出。:用分隔符组织对话情绪分类任务,明确标注情绪分类部分。
2024-12-12 13:39:45
414
原创 python+docker实现分布式存储的demo
然后我们以后还可以扩展,将docker-compose启动的镜像换为三个不同的镜像来完成你的项目需求(例如分布式机器学习,训练模型等等),整体的demo是搭起来了,后面你的具体需求就需要你自己修改实现了。上面的demo是用docker-compose启动三个容器(这三个容器的镜像都是由同一个Dockerfile实现的),然后实现的功能就是,比如我往容器一存东西,然后可以在容器2,容器3查看到。
2024-12-04 11:10:11
398
原创 使用kaggle提供的免费gpu来实现语音克隆
8.kaggle的运行环境只是它的冰山一角,它还提供了保存功能,是类似于github的那种保存,会把你每一个保存时的状态保存,方便回溯,非常好,非常方便。4.剩下的就没什么了,但是在我cpu环境下载好对应文件后,切换gpu运行代码时,python环境需要重新下载,但这也比colab强。1.首先,kaggle自带的资源是每周提供给你30h的gpu使用时间(你要验证过手机号才可以拥有这个功能)之前买的colab的gpu计算单元过期了,好吧,我们来试试kaggle的免费算力。
2024-12-02 15:05:29
245
原创 实现对图片或者视频增加隐藏水印和提取水印
嵌入水印: blind_watermark --embed --pwd 1234 examples/pic/ori_img.jpeg "watermark text" examples/output/embedded.png。这个没什么,就是在上面的基础上,对视频进行分帧,然后对每帧进行水印的添加,然后再加添加了水印的图片合成video,还有对每帧进行水印的提取。很简单,就是按着命令后走就行,但是问题是:公司的图片里面隐藏的水印的加密方式,我们也不知道啊,我提取了一下我的截图,出现的就是乱码。
2024-11-29 10:56:00
831
原创 python的包引入
但这通常不被推荐,因为它会导致代码的可移植性和可维护性降低。.和..只能在包内部使用,比如a2中导入a1的方法。上面的main是可以运行成功的,但是如果你在其中。,而不是文件系统路径。
2024-11-11 18:22:56
708
2
原创 redis的实践
1.redis和mysql的区别2.单redis实践(python)1)python环境准备2)本机环境准备redis.conf默认位置: /opt/homebrew/etc/redis.conf(mac)3)启动redis服务使用redis-cli ping测试有没有启动成功,返回pong,说明已经正常启动4)py代码连接redis5) py代码连接redis插入十条数据然后我们使用redis-cli进入redis数据库,就像mysql -u root -p一样的功能6)启动持久化。
2024-10-23 14:23:17
893
原创 python多线程处理xlsx,多进程访问接口
代码很简单,用了8个线程,处理scence.xlsx的数据,如果第八列和第六列的数据为空,则填写数据,这只是个小demo,后期还是要加对应的函数的。
2024-10-22 11:17:34
305
原创 m1安装roop,本地运行,视频换脸
3.安装需要的python库,这里要将requirements.txt换为下面的内容。2.新建一个conda虚拟环境,python版本为3.10.6。4.python run.py ,结束。
2024-10-18 15:29:41
375
原创 colab+ngork本地访问多模态大模型
将下面的代码放到一个新建的py文件,并且运行!chainlit run ui.py --host 0.0.0.0 --port 5000(在ngork后运行)在colab可以用;同时执行多个命令,但是要注意;4)运行ngork(先运行这个,在运行上面的命令)1)colab准备环境,我这里用的是l4。touch a.py。2)安装对应的python库。
2024-10-09 14:51:19
402
java的压测道具java的压测道具java的压测道具java的压测道具java的压测道具java的压测道具java的压测道具j
2024-08-15
vscode+git基本操作vscode+git基本操作vscode+git基本操作vscode+git基本操作
2024-07-29
基于对话记录生成用户画像
2024-04-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人