- 博客(61)
- 收藏
- 关注
原创 一文看懂 FastDatasets:用 LLM 极速生成高质量 SFT 数据集(已支持 Hugging Face Spaces & PyPI)
当大家还在手搓数据、到处找样本时,FastDatasets 已经把“数据蒸馏 + 指令增强 + 结构化导出”打包成一键流程。它是一个面向 SFT/Fine-tuning 的“数据生成工作台”:简单、快、可控、可落地。FastDatasets 的目标很直接:让每个团队都能像产品经理点按钮一样,批量生成可训、可复现、可解释的数据集。— 我们相信:好的模型建立在好的数据之上;而好的数据,应该被快速、优雅、低成本地生产出来。建议:先在 Space 秒懂流程,再在本地批量跑真活。— 立即体验与支持 —
2025-09-02 21:28:21
762
原创 FastDatasets 正式上线 PyPI:一行安装,立即生成训练数据集!
大家好!现已发布到现在你可以通过一行立即使用,无需克隆仓库或复杂配置。
2025-08-31 14:13:28
342
原创 重磅更新!FastDatasets 现已上线 Hugging Face Spaces,零门槛体验数据集生成神器
宝子们,你们要的来了!现在可以在上免费使用了!🚀 再也不用为了体验一个数据集工具而配置复杂的环境,点击链接就能立即上手!
2025-08-30 21:48:51
554
原创 大模型微调的救星!FastDatasets 一键搞定数据难题
大模型微调的救星!FastDatasets 一键搞定数据难题大模型再强,没有好数据集也很难发挥上限。手动标注太慢,爬虫数据质量参差不齐,购买数据又贵还难以贴合需求。现在,用 FastDatasets,构建高质量训练数据集只需一行命令。
2025-08-17 20:34:40
284
原创 重磅更新!FastDatasets 推出可视化 Web 界面,数据集生成更简单了
FastDatasets推出可视化Web界面,大幅简化数据集生成流程。新版本支持拖拽上传PDF/Word/Markdown等文件,提供直观的参数配置面板,包括文本分块、输出格式和LLM设置等功能。实时处理监控显示进度和日志,结果管理中心支持预览和下载。相比命令行版本,Web界面降低了使用门槛,提升了工作效率,同时保留了命令行自动化能力。该工具采用异步处理架构,支持批量操作和错误恢复,未来还将增加主题定制、数据分析等新功能。开发者可通过GitHub获取并体验这一升级版工具。
2025-08-10 16:04:29
846
原创 三步搞定!AI Agent|MCP技术原理大揭秘
宝子们,,一个超适合零基础入门AI Agent的宝藏项目。今天,我来带你们深入探索Agent背后的技术原理,让你彻底搞懂大模型和工具是怎么协作的!
2025-05-25 20:55:39
688
原创 大模型微调的救星!FastDatasets一键搞定数据难题
摘要: 大模型微调面临数据集构建难题,手动标注慢、爬虫质量差、购买成本高。推荐开源工具FastDatasets,支持自动化生成高质量问答对,5分钟快速上手。特点:全自动化处理、大模型保障数据质量、异步并行提速10倍+,兼容PDF/Word/Markdown等输入,输出适配Alpaca/ShareGPT等主流格式。适用于领域模型训练、研究及模型蒸馏场景,一行命令即可生成数据集。 关键词: #大模型微调 #数据集工具 #FastDatasets #LLM训练 #效率提升
2025-05-25 20:18:51
613
原创 FastDatasets新功能,让模型学会“思考”!
FastDatasets 推出新功能,支持生成带思维链的训练数据集,提升模型推理能力和可解释性。该功能通过捕获推理过程、标准化格式和灵活配置,帮助模型更好地学习复杂任务。用户可通过环境变量启用功能,选择支持推理的模型,并生成包含详细思维过程的数据集。适用于复杂推理、透明决策训练及教育场景。高级用法包括知识蒸馏获取思维链、自定义格式和调整推理深度。注意事项包括模型选择、数据多样性和质量检查。项目地址:FastDatasets,欢迎支持。
2025-05-20 22:41:13
433
原创 手把手教你用神器做数据蒸馏,效率狂飙10倍
在大模型时代,高质量的训练数据对模型性能至关重要,但获取和准备这些数据往往既昂贵又耗时。FastDatasets提供了一种高效的解决方案,通过数据蒸馏技术从大模型中提取知识,生成高质量的训练数据,用于训练更小的模型或增强大模型在特定领域的能力。该工具支持全自动处理,从文档到训练数据的转换,显著提高工作效率,并支持多种主流训练格式。它特别适合需要快速构建领域特定模型的研究者和开发者。通过异步并行处理和智能管理,FastDatasets能够大幅降低训练成本,提升模型质量,是进行大模型训练和数据准备的理想选择。
2025-05-11 13:36:23
519
原创 宝藏开源项目!大模型训练数据集构建难题一键解决
家人们,大模型再火,没有好数据集也是白搭!现在训练大模型,最头疼的不是模型架构,而是。一站式解决数据集构建难题:只需输入文档或者路径,自动输出训练就绪的高质量问答对!#大模型训练 #数据集构建 #效率工具 #LLM #datasets。您的每一个星标都是对我们最大的鼓励!
2025-05-07 21:23:45
358
原创 三步搞定!AI Agent技术原理大揭秘
宝子们,上次给你们安利了,一个超适合零基础入门AI Agent的宝藏项目。今天,我来带你们深入探索Agent背后的技术原理,让你彻底搞懂大模型和工具是怎么协作的!
2025-05-05 16:49:14
463
原创 零基础入门Agent!三分钟打造你的第一个AI助手
在AI飞速发展的今天,大语言模型(LLM)的能力简直逆天,但要让它们真正发挥价值,就需要AI Agent来帮忙。可现有的Agent框架,配置复杂、学习曲线陡峭、依赖特定LLM、工具集成困难,简直就是新手的噩梦。三分钟,从零到一,打造属于你的AI助手!的实际应用超广泛,无论是快速原型开发、教学演示、自动化工作流还是智能助手开发,都能轻松搞定!:#AI #Agent #LLM #开源 #Python #人工智能 #开发工具 #新手友好。三分钟,从零到一,轻松熟悉agent原理,打造属于你的AI助手!
2025-05-03 21:45:48
365
原创 realsense内参、外参获取
启动相机节点roslaunch realsense2_camera rs_camera.launch查看相机参数信息rostopic echo /camera/depth/camera_info内参矩阵格式fx 焦距xfy 焦距yx0 偏移xy0 偏移y将上图K举证按照公式对应即可获得内参
2021-10-11 16:52:56
2781
原创 C++ 常用函数
数字字符串转intatoi()头文件不做参数范围校验,遇到越界的返回边界值int atoi (const char * str);http://www.cplusplus.com/reference/cstdlib/atoi/?kw=atoistoi()头文件#include<string>越界会报错int stoi (const string& str, size_t* idx = 0, int base = 10);http://www.cplusplus
2021-10-07 19:54:45
221
原创 使用rosbag录制realsense报错: cv_bridge exception: ‘[16UC1] is not a color format. but [bgr8] is.
原因rosbag record -a 会记录所有topic,compress转换格式出错解决https://github.com/IntelRealSense/realsense-ros/issues/1076rosbag指定要录制的topic rosbag record /camera/color/camera_info /camera/color/image_raw /camera/depth/camera_info /camera/depth/color/points /camer.
2021-09-26 18:24:12
2560
原创 WSL2/ Windows Terminal常用配置
Windows Terminal 中 WSL2 默认打开路径配置如下图,打开设置修改对应系统类型和username,博主用的是ubuntu18.04
2021-08-25 22:41:36
583
原创 C++ const总结&记录
const 是 constant 的缩写,本意是不变的,不易改变的意思。在 C++ 中是用来修饰内置类型变量,自定义对象,成员函数,返回值,函数参数。上才艺 ,搞错了,直接上代码#include <iostream>using namespace std;int main(){ // 1、修饰普通类型的变量 const int a = 156; int b = a; // int a = 158; 错误,不能改变 // 2、修饰指针变量
2021-06-19 14:20:43
123
原创 STL总结&记录
参考:https://www.cnblogs.com/al-fajr/p/11285579.htmlhttps://baike.baidu.com/item/%E6%A0%87%E5%87%86%E6%A8%A1%E6%9D%BF%E5%BA%93/5513832?fromtitle=STL&fromid=70103&fr=aladdin1.STLSTL(StandardTemplate Library),即标准模板库,是一个具有工业强度的,高效的C++程序库。它被容纳于C++标准
2021-06-14 23:40:28
341
4
原创 vscode配置c++开发环境
安装vs codehttps://code.visualstudio.com/安装c++插件下载编译器常用的有MinGW:https://sourceforge.net/projects/mingw-w64/files/TDM-GCC:https://www.baidu.com/link?url=QQV-jAj2kw6xxsv4fxrq4Si8mjkPWJXrtewUJujBbMswrb598qlYZzLCW-IS45wD&wd=&eqid=b24fd34700109ae00
2021-06-11 21:42:17
176
原创 ubuntu18.04下virtualbox和增强工具安装
安装irtualbox报错Either there is no module available for the current kernel (5.4-generic) or it failed to load. Please recompile the kernel module and install it by sudo /sbin/vboxconfigYou will not be able to start VMs until this problem is fixed.解
2021-06-11 14:02:30
452
原创 win10重装成ubuntu18.04
安装教程网上比较多,不做赘述,只记录下自己安装过程,仅供参考U盘准备一个u盘,作为系统盘,后面作为ubuntu的启动盘,内存最好32G以下,格式为FAT32的,如果是其他格式需要转换镜像下载ubuntu18.04镜像文件,文件格式为iso,存储在U盘以外的其他盘备用使用UltraISO制作系统盘下载制作系统盘的软件 UltraISO ,安装好后点继续试用即可进入使用加载下载好的镜像菜单栏:启动->写入硬盘映像在弹出窗口编辑硬盘驱动器:即为U盘地址写入方式选择:
2021-05-20 21:43:39
681
原创 Ubuntu ROS一键安装脚本
ROS一键安装脚本首先保证apt源OK主要难点是 sudo rosdep init 和rosdep update,脚本通过git直接把代码拉倒本地了,所以保证git可用ubuntu 20.04安装的是noetic版本后续会进行适配,有问题可留言#!/bin/bash # *************************************# Desscription: base on ubuntu 20.04.2# Date: 2021.05.16# ROS ve
2021-05-15 21:35:03
515
原创 解决python中module 'smtplib' has no attribute 'SMTP_SSL'报错问题
python使用邮件出现module 'smtplib' has no attribute 'SMTP_SSL'报错问题,通过安装相关依赖解决
2020-02-20 22:31:40
8284
2
原创 jupyter notebook作图
1.使用matplotlib时显示图像%matplotlib# 跳出窗口生成一个Figure%matplotlib inline# 生在图像直接嵌入笔记2.显示中文plt.rc('font', family='SimHei', size=13)
2019-04-25 16:41:33
2004
转载 使用Pandas库时显示不全(省略)的解决办法
原文:https://blog.youkuaiyun.com/weekdawn/article/details/81389865#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100,默认为50pd.set_option('max_c...
2019-04-25 10:55:57
1159
原创 sklearn的train_test_split函数的random_state
我们使用sklearn进行机器学习之前,一般使用train_test_split来进行数据集的分割,其参数random_state代表什么呢?>>>from sklearn.model_selection import train_test_split>>> x = [1,2,3,4,5,6,7,8,9,10]>>> y = [1,...
2019-04-11 17:04:21
11399
1
原创 python自动推送更新的小说
目前在看一部连载小说,每天花时间查更新太麻烦了,毕竟也是学过爬虫的,用python写个小程序自动推送更新还不是美滋滋的
2019-03-24 08:36:19
1440
原创 python中email模块的一些用法
1.parseaddr函数 email.utils.parseaddr(address)是模块中专门用来解析邮件地址的函数,返回一个tuplefrom email.utils import parseaddr>>> c=parseaddr('user<addr@163.com>')>>> type(c)<class 'tuple'...
2019-03-23 20:46:59
8546
原创 python中pickle模块的用法
在编程过程中,需要保存一些数据,例如机器学习中训练好的模型,下次使用直接调用即可,pickle模块就是起到这样一个保存模型的作用。pickle.dumps(obj) 将obj对象序列化为string形式pickle.loads(string) 从string中读出序列化前的obj对象>>> import pickle>>> li = [1...
2019-03-11 22:50:36
689
原创 python的可变参数 *args 和关键字参数**kw
*args是非关键字参数,传入任意个参数不需要包含参数名,用于tuple**kw是关键字参数,传入任意个参数要带参数名,用于dict例子>>> def f(*args, **kw):... print('args= ',args) #args接收任意个不带参数名的参数... print('kw= ',kw) #kw接收任意个带参数名的参...
2019-03-06 21:40:33
466
原创 python中的reduce函数
reduce接受两个参数,第一个是一个函数,函数必须接受两个参数,第二个是序列,reduce把结果继续和序列的下一个元素做累积计算,效果如下: reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)举个栗子>>> from functools import reduce>>> reduce(l...
2019-03-05 23:36:45
1588
原创 python中enumerate() 函数用法
enumerate() 函数用于将一个可遍历的数据对象返回数据和数据下标用法: enumerate(sequence, [start=0]) #start表示下标起始位置实例&amp;gt;&amp;gt;&amp;gt; nums = [1, 3, 5, 7]&amp;gt;&amp;gt;&amp;gt; list(enumerate(nums))[(0, 1), (1, 3)
2019-03-04 23:39:45
1445
原创 python中divmod函数的用法
divmod() 函数把除数和余数运算结果结合起来,返回一个包含商和余数的元组divmod是内置函数,不需要导入,可以直接使用 >>> divmod(7,2) (3, 1) >>> divmod(9,2.5) (3.0, 1.5) #实际应用时可以这么写 carry, remainder = div...
2019-03-03 23:31:06
17369
原创 python中map函数的用法
map() 函数接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个迭代器并返回。需要注意的是,python2中返回的是一个list,但是python中返回的是一个iterator上代码 lis = [1,2,3,4] ite = map(str, lis) lis = list(ite) print(typ...
2019-03-03 20:19:49
5873
原创 ping ip和端口
1.ping IP地址ping 101.2.3.42.tcping IP地址 端口tcping 101.2.3.4 8080tcping下载地址:点击下载放入目录C:\Windows\System32,之后再cmd窗口运行即可3.检测可用端口地址国内(http://coolaf.com/tool/port)国外(https://www.yougetsignal.com/tool...
2019-03-02 13:39:31
22564
原创 Numpy中axis参数的用法
numpy.mean(a, axis=0)axis=0表示按列求平均,axis=1表示按行求平均axis没有指定参数时表示所有值的平均举个栗子: import numpy arr = ([1,2], [3,4], [5,6]) arr = numpy.mean(arr) print(arr) arr = numpy.mean(arr, axis...
2019-02-25 14:29:58
544
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅