ModelWhale 带来了新一轮的版本更新,期待为大家带来更优质的使用体验。
本次更新中,ModelWhale 主要进行了以下功能迭代:
-
数据管理:新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集
-
文本标注:新增“关系抽取”标注,满足知识图谱构建、助力 GraphRAG 实践
-
模型服务应用
(1)服务监控:新增记录 TPM 和 RPM 监控指标、调用记录回溯
(2)服务应用:新增 外部文件输入
(3)服务调试:新增 网络环境配置
-
团队协作:新增 我的团队,适用于科研项目组管理、研究小组协同
-
算力管理
(1)新增 由管理员配置“成员可申请的算力”
(2)新增 支持管理员监控服务“最小副本数”
-
智能助手:新增 智谱平台接入,支持在 ModelWhale 使用 智谱 AMiner、AIWorkFlow
-
*仅 ModelWhale 私有化
(1)新增 模型 Repo(新模块):使用 git 命令将外部模型接入平台
(2)视频标注结果:新增 支持转换为 COCO、human3.6m、PoseTrack18 等满足若干开源模型训练的数据规范
(3)待标注数据接入(文本标注):新增 支持解析 json 格式语料
(4)待标注数据接入:新增 从外部 API 数据连接制作平台“标注数据集”
01 数据管理:
新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集
ModelWhale 支持接入企业内多源数据要素,在平台完成数据分析流程中的数据治理(包括元数据管理)、权限分发使用。
-
在本地或第三方平台进行数据分析时,你可以使用 SDK 操作 ModelWhale 平台内你的数据集,包括:查看、下载(无需再手动逐个下载数据集文件)。
-
完成数据产品的开发后,你可以使用 SDK 将成果制作为平台数据集,汇总到 ModelWhale 平台进行统一管理。你也可以将其更新至某个平台数据集。
一些代码示例如下:
(1)查看数据集
pip install mw-python-sdk==0.0.31
from mw_python_sdk import get_dataset
# 读取该数据集 id 下的文件
get_dataset(dataset._id).files
响应结果:
[DatasetFile(_id=None, key='dataset/59ad0f2e21100106622a1f0c/1724665346723_1/simple_image.png', size=None, sub_path='')]
(2)下载数据集
平台数据集详情页,也提供通过 SDK 下载的提示指引。
#import os
#os.environ["MW_TOKEN"]="设置你的token"
#os.environ["HEYWHALE_HOST"]="访问地址,默认可以不设置"
pip install mw-python-sdk==0.0.31
from mw_python_sdk import download_file
dataset_id_tmp = dataset_id
download_file(dataset_id_tmp, "simple_image.png")
(3)制作数据集
pip install mw-python-sdk==0.0.31
from mw_python_sdk import create_dataset
dataset = create_dataset("a_simple_datas