自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mumu's Blogs

分享生活,知识改变命运

  • 博客(61)
  • 收藏
  • 关注

原创 一文看懂 FastDatasets:用 LLM 极速生成高质量 SFT 数据集(已支持 Hugging Face Spaces & PyPI)

当大家还在手搓数据、到处找样本时,FastDatasets 已经把“数据蒸馏 + 指令增强 + 结构化导出”打包成一键流程。它是一个面向 SFT/Fine-tuning 的“数据生成工作台”:简单、快、可控、可落地。FastDatasets 的目标很直接:让每个团队都能像产品经理点按钮一样,批量生成可训、可复现、可解释的数据集。— 我们相信:好的模型建立在好的数据之上;而好的数据,应该被快速、优雅、低成本地生产出来。建议:先在 Space 秒懂流程,再在本地批量跑真活。— 立即体验与支持 —

2025-09-02 21:28:21 762

原创 FastDatasets 正式上线 PyPI:一行安装,立即生成训练数据集!

大家好!现已发布到现在你可以通过一行立即使用,无需克隆仓库或复杂配置。

2025-08-31 14:13:28 342

原创 重磅更新!FastDatasets 现已上线 Hugging Face Spaces,零门槛体验数据集生成神器

宝子们,你们要的来了!现在可以在上免费使用了!🚀 再也不用为了体验一个数据集工具而配置复杂的环境,点击链接就能立即上手!

2025-08-30 21:48:51 554

原创 大模型微调的救星!FastDatasets 一键搞定数据难题

大模型微调的救星!FastDatasets 一键搞定数据难题大模型再强,没有好数据集也很难发挥上限。手动标注太慢,爬虫数据质量参差不齐,购买数据又贵还难以贴合需求。现在,用 FastDatasets,构建高质量训练数据集只需一行命令。

2025-08-17 20:34:40 284

原创 重磅更新!FastDatasets 推出可视化 Web 界面,数据集生成更简单了

FastDatasets推出可视化Web界面,大幅简化数据集生成流程。新版本支持拖拽上传PDF/Word/Markdown等文件,提供直观的参数配置面板,包括文本分块、输出格式和LLM设置等功能。实时处理监控显示进度和日志,结果管理中心支持预览和下载。相比命令行版本,Web界面降低了使用门槛,提升了工作效率,同时保留了命令行自动化能力。该工具采用异步处理架构,支持批量操作和错误恢复,未来还将增加主题定制、数据分析等新功能。开发者可通过GitHub获取并体验这一升级版工具。

2025-08-10 16:04:29 846

原创 三步搞定!AI Agent|MCP技术原理大揭秘

宝子们,,一个超适合零基础入门AI Agent的宝藏项目。今天,我来带你们深入探索Agent背后的技术原理,让你彻底搞懂大模型和工具是怎么协作的!

2025-05-25 20:55:39 688

原创 大模型微调的救星!FastDatasets一键搞定数据难题

摘要: 大模型微调面临数据集构建难题,手动标注慢、爬虫质量差、购买成本高。推荐开源工具FastDatasets,支持自动化生成高质量问答对,5分钟快速上手。特点:全自动化处理、大模型保障数据质量、异步并行提速10倍+,兼容PDF/Word/Markdown等输入,输出适配Alpaca/ShareGPT等主流格式。适用于领域模型训练、研究及模型蒸馏场景,一行命令即可生成数据集。 关键词: #大模型微调 #数据集工具 #FastDatasets #LLM训练 #效率提升

2025-05-25 20:18:51 613

原创 FastDatasets新功能,让模型学会“思考”!

FastDatasets 推出新功能,支持生成带思维链的训练数据集,提升模型推理能力和可解释性。该功能通过捕获推理过程、标准化格式和灵活配置,帮助模型更好地学习复杂任务。用户可通过环境变量启用功能,选择支持推理的模型,并生成包含详细思维过程的数据集。适用于复杂推理、透明决策训练及教育场景。高级用法包括知识蒸馏获取思维链、自定义格式和调整推理深度。注意事项包括模型选择、数据多样性和质量检查。项目地址:FastDatasets,欢迎支持。

2025-05-20 22:41:13 433

原创 手把手教你用神器做数据蒸馏,效率狂飙10倍

在大模型时代,高质量的训练数据对模型性能至关重要,但获取和准备这些数据往往既昂贵又耗时。FastDatasets提供了一种高效的解决方案,通过数据蒸馏技术从大模型中提取知识,生成高质量的训练数据,用于训练更小的模型或增强大模型在特定领域的能力。该工具支持全自动处理,从文档到训练数据的转换,显著提高工作效率,并支持多种主流训练格式。它特别适合需要快速构建领域特定模型的研究者和开发者。通过异步并行处理和智能管理,FastDatasets能够大幅降低训练成本,提升模型质量,是进行大模型训练和数据准备的理想选择。

2025-05-11 13:36:23 519

原创 宝藏开源项目!大模型训练数据集构建难题一键解决

家人们,大模型再火,没有好数据集也是白搭!现在训练大模型,最头疼的不是模型架构,而是。一站式解决数据集构建难题:只需输入文档或者路径,自动输出训练就绪的高质量问答对!#大模型训练 #数据集构建 #效率工具 #LLM #datasets。您的每一个星标都是对我们最大的鼓励!

2025-05-07 21:23:45 358

原创 三步搞定!AI Agent技术原理大揭秘

宝子们,上次给你们安利了,一个超适合零基础入门AI Agent的宝藏项目。今天,我来带你们深入探索Agent背后的技术原理,让你彻底搞懂大模型和工具是怎么协作的!

2025-05-05 16:49:14 463

原创 零基础入门Agent!三分钟打造你的第一个AI助手

在AI飞速发展的今天,大语言模型(LLM)的能力简直逆天,但要让它们真正发挥价值,就需要AI Agent来帮忙。可现有的Agent框架,配置复杂、学习曲线陡峭、依赖特定LLM、工具集成困难,简直就是新手的噩梦。三分钟,从零到一,打造属于你的AI助手!的实际应用超广泛,无论是快速原型开发、教学演示、自动化工作流还是智能助手开发,都能轻松搞定!:#AI #Agent #LLM #开源 #Python #人工智能 #开发工具 #新手友好。三分钟,从零到一,轻松熟悉agent原理,打造属于你的AI助手!

2025-05-03 21:45:48 365

原创 c++ 智能指针 shared_ptr、weak_ptr、unique_ptr

C++智能指针

2021-12-24 22:08:48 639

原创 realsense内参、外参获取

启动相机节点roslaunch realsense2_camera rs_camera.launch查看相机参数信息rostopic echo /camera/depth/camera_info内参矩阵格式fx 焦距xfy 焦距yx0 偏移xy0 偏移y将上图K举证按照公式对应即可获得内参

2021-10-11 16:52:56 2781

原创 C++ 常用函数

数字字符串转intatoi()头文件不做参数范围校验,遇到越界的返回边界值int atoi (const char * str);http://www.cplusplus.com/reference/cstdlib/atoi/?kw=atoistoi()头文件#include<string>越界会报错int stoi (const string& str, size_t* idx = 0, int base = 10);http://www.cplusplus

2021-10-07 19:54:45 221

原创 使用rosbag录制realsense报错: cv_bridge exception: ‘[16UC1] is not a color format. but [bgr8] is.

原因rosbag record -a 会记录所有topic,compress转换格式出错解决https://github.com/IntelRealSense/realsense-ros/issues/1076rosbag指定要录制的topic rosbag record /camera/color/camera_info /camera/color/image_raw /camera/depth/camera_info /camera/depth/color/points /camer.

2021-09-26 18:24:12 2560

原创 WSL2/ Windows Terminal常用配置

Windows Terminal 中 WSL2 默认打开路径配置如下图,打开设置修改对应系统类型和username,博主用的是ubuntu18.04

2021-08-25 22:41:36 583

原创 C++ const总结&记录

const 是 constant 的缩写,本意是不变的,不易改变的意思。在 C++ 中是用来修饰内置类型变量,自定义对象,成员函数,返回值,函数参数。上才艺 ,搞错了,直接上代码#include <iostream>using namespace std;int main(){ // 1、修饰普通类型的变量 const int a = 156; int b = a; // int a = 158; 错误,不能改变 // 2、修饰指针变量

2021-06-19 14:20:43 123

原创 STL总结&记录

参考:https://www.cnblogs.com/al-fajr/p/11285579.htmlhttps://baike.baidu.com/item/%E6%A0%87%E5%87%86%E6%A8%A1%E6%9D%BF%E5%BA%93/5513832?fromtitle=STL&fromid=70103&fr=aladdin1.STLSTL(StandardTemplate Library),即标准模板库,是一个具有工业强度的,高效的C++程序库。它被容纳于C++标准

2021-06-14 23:40:28 341 4

原创 vscode配置c++开发环境

安装vs codehttps://code.visualstudio.com/安装c++插件下载编译器常用的有MinGW:https://sourceforge.net/projects/mingw-w64/files/TDM-GCC:https://www.baidu.com/link?url=QQV-jAj2kw6xxsv4fxrq4Si8mjkPWJXrtewUJujBbMswrb598qlYZzLCW-IS45wD&wd=&eqid=b24fd34700109ae00

2021-06-11 21:42:17 176

原创 ubuntu18.04下virtualbox和增强工具安装

安装irtualbox报错Either there is no module available for the current kernel (5.4-generic) or it failed to load. Please recompile the kernel module and install it by sudo /sbin/vboxconfigYou will not be able to start VMs until this problem is fixed.解

2021-06-11 14:02:30 452

原创 win10重装成ubuntu18.04

安装教程网上比较多,不做赘述,只记录下自己安装过程,仅供参考U盘准备一个u盘,作为系统盘,后面作为ubuntu的启动盘,内存最好32G以下,格式为FAT32的,如果是其他格式需要转换镜像下载ubuntu18.04镜像文件,文件格式为iso,存储在U盘以外的其他盘备用使用UltraISO制作系统盘下载制作系统盘的软件 UltraISO ,安装好后点继续试用即可进入使用加载下载好的镜像菜单栏:启动->写入硬盘映像在弹出窗口编辑硬盘驱动器:即为U盘地址写入方式选择:

2021-05-20 21:43:39 681

原创 Ubuntu ROS一键安装脚本

ROS一键安装脚本首先保证apt源OK主要难点是 sudo rosdep init 和rosdep update,脚本通过git直接把代码拉倒本地了,所以保证git可用ubuntu 20.04安装的是noetic版本后续会进行适配,有问题可留言#!/bin/bash # *************************************# Desscription: base on ubuntu 20.04.2# Date: 2021.05.16# ROS ve

2021-05-15 21:35:03 515

原创 解决python中module 'smtplib' has no attribute 'SMTP_SSL'报错问题

python使用邮件出现module 'smtplib' has no attribute 'SMTP_SSL'报错问题,通过安装相关依赖解决

2020-02-20 22:31:40 8284 2

原创 re匹配中文字符

在进行匹配时常常需要用到re匹配中文字符

2019-04-28 10:07:33 5072

原创 jupyter notebook作图

1.使用matplotlib时显示图像%matplotlib# 跳出窗口生成一个Figure%matplotlib inline# 生在图像直接嵌入笔记2.显示中文plt.rc('font', family='SimHei', size=13)

2019-04-25 16:41:33 2004

转载 使用Pandas库时显示不全(省略)的解决办法

原文:https://blog.youkuaiyun.com/weekdawn/article/details/81389865#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100,默认为50pd.set_option('max_c...

2019-04-25 10:55:57 1159

原创 sklearn的train_test_split函数的random_state

  我们使用sklearn进行机器学习之前,一般使用train_test_split来进行数据集的分割,其参数random_state代表什么呢?>>>from sklearn.model_selection import train_test_split>>> x = [1,2,3,4,5,6,7,8,9,10]>>> y = [1,...

2019-04-11 17:04:21 11399 1

原创 用python发邮件

python集成了邮件功能,可以满足各种发邮件的需求,这里以SMTP协议和QQ邮箱为例

2019-03-25 21:12:35 329

原创 python自动推送更新的小说

目前在看一部连载小说,每天花时间查更新太麻烦了,毕竟也是学过爬虫的,用python写个小程序自动推送更新还不是美滋滋的

2019-03-24 08:36:19 1440

原创 python中email模块的一些用法

1.parseaddr函数  email.utils.parseaddr(address)是模块中专门用来解析邮件地址的函数,返回一个tuplefrom email.utils import parseaddr>>> c=parseaddr('user<addr@163.com>')>>> type(c)<class 'tuple'...

2019-03-23 20:46:59 8546

原创 python中pickle模块的用法

  在编程过程中,需要保存一些数据,例如机器学习中训练好的模型,下次使用直接调用即可,pickle模块就是起到这样一个保存模型的作用。pickle.dumps(obj)  将obj对象序列化为string形式pickle.loads(string)  从string中读出序列化前的obj对象&gt;&gt;&gt; import pickle&gt;&gt;&gt; li = [1...

2019-03-11 22:50:36 689

原创 python的可变参数 *args 和关键字参数**kw

*args是非关键字参数,传入任意个参数不需要包含参数名,用于tuple**kw是关键字参数,传入任意个参数要带参数名,用于dict例子&gt;&gt;&gt; def f(*args, **kw):... print('args= ',args) #args接收任意个不带参数名的参数... print('kw= ',kw) #kw接收任意个带参数名的参...

2019-03-06 21:40:33 466

原创 python中的reduce函数

reduce接受两个参数,第一个是一个函数,函数必须接受两个参数,第二个是序列,reduce把结果继续和序列的下一个元素做累积计算,效果如下: reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)举个栗子&gt;&gt;&gt; from functools import reduce&gt;&gt;&gt; reduce(l...

2019-03-05 23:36:45 1588

原创 python中list列表的一些操作

python中list的一些基础操作,包括切片、求和、去重、合并、排序、获取元素索引

2019-03-05 18:03:03 226

原创 python中enumerate() 函数用法

enumerate() 函数用于将一个可遍历的数据对象返回数据和数据下标用法: enumerate(sequence, [start=0]) #start表示下标起始位置实例&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; nums = [1, 3, 5, 7]&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; list(enumerate(nums))[(0, 1), (1, 3)

2019-03-04 23:39:45 1445

原创 python中divmod函数的用法

divmod() 函数把除数和余数运算结果结合起来,返回一个包含商和余数的元组divmod是内置函数,不需要导入,可以直接使用 &gt;&gt;&gt; divmod(7,2) (3, 1) &gt;&gt;&gt; divmod(9,2.5) (3.0, 1.5) #实际应用时可以这么写 carry, remainder = div...

2019-03-03 23:31:06 17369

原创 python中map函数的用法

map() 函数接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个迭代器并返回。需要注意的是,python2中返回的是一个list,但是python中返回的是一个iterator上代码 lis = [1,2,3,4] ite = map(str, lis) lis = list(ite) print(typ...

2019-03-03 20:19:49 5873

原创 ping ip和端口

1.ping IP地址ping 101.2.3.42.tcping IP地址 端口tcping 101.2.3.4 8080tcping下载地址:点击下载放入目录C:\Windows\System32,之后再cmd窗口运行即可3.检测可用端口地址国内(http://coolaf.com/tool/port)国外(https://www.yougetsignal.com/tool...

2019-03-02 13:39:31 22564

原创 Numpy中axis参数的用法

numpy.mean(a, axis=0)axis=0表示按列求平均,axis=1表示按行求平均axis没有指定参数时表示所有值的平均举个栗子: import numpy arr = ([1,2], [3,4], [5,6]) arr = numpy.mean(arr) print(arr) arr = numpy.mean(arr, axis...

2019-02-25 14:29:58 544

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除