dbml mysql_深度好文:全方位了解MLDB数据库

MLDB是一个专为机器学习设计的数据库,优化了存储、转换和导航机器学习结构如深度神经网络的计算图。它提供了一个开放源代码的本地数据库,支持存储和查询模型,包括文件、数据集、过程、函数、查询和API等组件。MLDB支持多种机器学习算法和深度学习引擎,适用于现代机器学习项目的复杂需求。

导读

MLDB是为机器学习时代而设计的数据库。 该平台经过优化,可以存储,转换和导航表示机器学习结构(例如深度神经网络)的计算图。

现实世界中的机器学习解决方案很少只是构建和测试模型的问题。 到目前为止,从训练到优化,管理和自动化机器学习模型的生命周期是机器学习解决方案中最难解决的问题。 为了控制模型的生命周期,数据科学家需要能够持久地并大规模地查询其状态。 除非您认为任何平均深度学习模型都可以包含数百个隐藏层和数百万个互连节点,否则这个问题似乎微不足道。

7fc2bf70bd6bb103baf4d7104f0b96ff.png

存储和访问大型计算图绝非易事。 在大多数情况下,数据科学团队花费大量时间尝试将商品化的NOSQL数据库适应机器学习模型,然后得出一个不太明显的结论:机器学习解决方案需要一种新型的数据库。

MLDB是为机器学习时代而设计的数据库。 该平台经过优化,可以存储,转换和导航表示机器学习结构(例如深度神经网络)的计算图。 我知道您在想什么AWS云机器学习平台(例如AWS SageMaker或Azure ML)已经包含用于机器学习图的持久性模型,那么为什么我们需要另一个解决方案? 好吧,事实证明,可以从真实数据库中受益的现实世界机器学习解决方案有很多需求:

26347b45770c5631a332e5203c3613a9.png

输入MLDB

MLDB提供了一个开放源代码的本地数据库,用于存储和查询机器学习模型。 该平台首先在Datacratic中孵化,最近被AI强国Elementai收购,以验证数据库引擎在现代机器学习项目中的相关性。 MLDB有多种形式,例如可以部署在任何容器平台上的云服务,VirtualBox VM或Docker实例。

MLDB的体系结构结合了不同的工件,这些工件抽象了机器学习解决方案生命周期的不同元素。 从技术上讲,MLDB模型可以归纳为六个简单的组件:文件,数据集,过程,函数,查询和API。

fa56af095dff51c81f3f9d3f6819441f.png

档案

文件表示MLDB体系结构中的通用抽象单元。 在MLDB模型中,文件可用于加载模型的数据,函数的参数或保留特定的数据集。 MLDB支持与流行的文件系统(例如HDFS和S3)进行本机集成。

数据集

MLDB数据集表示过程和机器学习模型使用的主要数据单元。 从结构上讲,数据集是无模式,仅附加命名的数据点集,它们包含在单元格中,单元格位于行和列的交点处。 数据点由值和时间戳组成。 每个数据点因此可以表示为(行,列,时间戳,值)元组,而数据集可以视为稀疏的3维矩阵。 可以创建数据集,并可以通过MLDB的REST API将数据添加到数据集,也可以通过过程从文件中加载或保存到文件中。

程序

在MLDB中,过程用于实现机器学习模型的不同方面,例如培训或数据转换。 从技术的角度来看,过程被命名为可重用的程序,用于实现长时间运行的批处理操作而没有返回值。 过程通常在数据集上运行,并且可以通过SQL表达式进行配置。 过程的输出可以包括数据集和文件。

功能

MLDB函数抽象了过程中使用的数据计算例程。 函数被命名为可重用的程序,用于实现可以接受输入值并返回输出值的流计算。 通常,MLDB函数封装表示特定计算的SQL表达式。

查询

MLDB的主要优点之一是它使用SQL作为查询存储在数据库中的数据的机制。 该平台支持相当完整的基于SQL的语法,其中包括熟悉的构造,例如SELECT,WHERE,FROM,GROUP BY,ORDER BY等。 例如,在MLDB中,我们可以使用SQL查询为图像分类模型准备训练数据集:

mldb.query("SELECT * FROM images LIMIT 3000")

API和Pymldb

MLDB的所有功能都通过简单的REST API公开。 该平台还包括pymldb,这是一个Python库,它以非常友好的语法抽象了API的功能。 以下代码显示了如何使用pymldb创建和查询数据集。

from pymldb import Connection

mldb = Connection("http://localhost")

mldb.put( "/v1/datasets/demo", {"type":"sparse.mutable"})

mldb.post("/v1/datasets/demo/rows", {"rowName": "first", "columns":[["a",1,0],["b",2,0]]})

mldb.post("/v1/datasets/demo/rows", {"rowName": "second", "columns":[["a",3,0],["b",4,0]]})

mldb.post("/v1/datasets/demo/commit")

df = mldb.query("select * from demo")

print type(df)

支持机器学习算法

MLDB支持大量的算法,例如可以从"过程和函数"中使用的算法。 该平台还本地支持TensorFlow等不同深度学习引擎的计算图。

685914ce9a437217a73c634d443f5c8a.png

汇集全部

让我们以机器学习解决方案中的通用工作流程为例,例如模型的训练和评分。 下图说明了如何在MLDB中实现它:

069487cb8e71eac7bb9f412e24c3086c.png

该过程从充满训练数据的文件开始,该文件已加载到训练数据集中。

运行培训程序以生成模型文件

模型文件用于参数化评分功能

可通过REST端点立即访问此评分功能,以进行实时评分

还可以通过SQL查询立即访问评分功能

批处理计分过程使用SQL将计分功能应用于未计分的数据集,从而产生计分的数据集

结论

MLDB是为实现机器学习解决方案而重新设计的第一个数据库实例。 该平台仍然可以进行很多改进,以支持现代机器和深度学习技术,但是它的灵活性和可扩展性使其成为了这个新领域的一次重大迭代。

// Use DBML to define your database structure // Docs: https://dbml.dbdiagram.io/docs Table follows { following_user_id integer followed_user_id integer created_at timestamp } Table users { id integer [primary key] username varchar role varchar created_at timestamp } Table posts { id integer [primary key] title varchar body text [note: 'Content of the post'] user_id integer [not null] status varchar created_at timestamp } Ref user_posts: posts.user_id > users.id // many-to-one Ref: users.id < follows.following_user_id Ref: users.id < follows.followed_user_id Table "authority" { "id" int [pk, not null, increment, note: 'ID'] "name" varchar(32) [not null, note: '名称'] "description" varchar(64) [not null, note: '描述'] Indexes { name [type: btree, unique, name: "name"] } Note: '权限表' } Table "comments" { "id" int [pk, not null, increment, note: '评论ID'] "news_id" int [not null, note: '新闻ID'] "author" varchar(255) [default: '匿名用户', note: '评论作者'] "content" text [not null, note: '评论内容'] "created_at" datetime [default: `CURRENT_TIMESTAMP`, note: '评论时间'] Indexes { news_id [type: btree, name: "news_id"] } Note: '评论表' } Table "hero" { "id" int [pk, not null, increment, note: '英雄ID'] "name" varchar(64) [not null, note: '英雄名称'] "avatar" varchar(256) [default: NULL, note: '英雄头像(存储头像图片的URL)'] "description" text [note: '英雄描述'] "created_at" datetime [default: `CURRENT_TIMESTAMP`, note: '创建时间'] "updated_at" datetime [default: `CURRENT_TIMESTAMP`, note: '更新时间'] Note: '英雄信息表' } Table "match_rounds" { "id" int [pk, not null, increment, note: '轮次ID'] "match_id" int [not null, note: '比赛ID'] "round_number" int [not null, note: '轮次序号(如第1局、第2局)'] "team1_score" int [default: NULL, note: '队伍1的得分'] "team2_score" int [default: NULL, note: '队伍2的得分'] Indexes { match_id [type: btree, name: "match_id"] } Note: '比赛轮次表' } Table "matches" { "id" int [pk, not null, increment, note: '比赛ID'] "status" varchar(20) [not null, note: '比赛状态(如已结束、进行中)'] "name" varchar(100) [not null, note: '比赛名称'] "stage" varchar(50) [not null, note: '比赛阶段(如小组赛、淘汰赛)'] "date" datetime [not null, note: '比赛时间'] "team1_id" int [not null, note: '队伍1的ID'] "team2_id" int [not null, note: '队伍2的ID'] "team1_score" int [default: NULL, note: '队伍1的得分'] "team2_score" int [default: NULL, note: '队伍2的得分'] "event_type" varchar(50) [not null, note: '比赛类型(如全球总决赛、LPL)'] Indexes { team1_id [type: btree, name: "team1_id"] team2_id [type: btree, name: "team2_id"] } Note: '比赛表' } Table "news" { "id" int [pk, not null, increment, note: '新闻ID'] "title" varchar(255) [not null, note: '新闻标题'] "author" varchar(100) [default: NULL, note: '作者名称'] "publish_date" datetime [not null, note: '发布时间'] "content" text [not null, note: '新闻内容'] "views" int [default: 0, note: '浏览次数'] "image" varchar(255) [default: NULL, note: '新闻图片'] Note: '新闻表' } Table "orders" { "id" int [pk, not null, increment] "user_id" int [not null] "match_id" int [not null] "ticket_id" int [not null] "quantity" int [not null] "total_price" decimal(10,2) [default: NULL] "order_time" timestamp [default: `CURRENT_TIMESTAMP`] "status" varchar(20) [default: '已下单'] Indexes { ticket_id [type: btree, name: "fk_ticket_id"] } } Table "player_stats" { "id" int [pk, not null, increment, note: '记录ID'] "round_id" int [not null, note: '轮次ID'] "team_member_id" int [not null, note: '选手ID'] "hero_id" int [not null, note: '英雄ID'] "kills" int [default: 0, note: '击杀数'] "deaths" int [default: 0, note: '死亡数'] "assists" int [default: 0, note: '助攻数'] "cs" int [default: 0, note: '补刀数(Creep Score)'] "damage" int [default: 0, note: '伤害值'] "gold" int [default: 0, note: '经济(金币)'] "vision" int [default: 0, note: '视野控制分'] Indexes { round_id [type: btree, name: "round_id"] team_member_id [type: btree, name: "team_member_id"] hero_id [type: btree, name: "hero_id"] } Note: '比赛轮次选手数据表' } Table "referee" { "id" int [pk, not null, increment, note: 'ID'] "username" varchar(255) [default: NULL] "refereeName" varchar(32) [default: NULL, note: '裁判姓名'] "level" varchar(64) [default: NULL, note: '裁判等级'] "experience" text [note: '执裁经历'] Indexes { username [type: btree, name: "fk_username"] } Note: '裁判表' } Table "report" { "id" int [pk, not null, increment, note: 'ID'] "refereeName" varchar(64) [default: NULL, note: '裁判姓名'] "reporterName" varchar(64) [default: NULL, note: '举报人姓名'] "contact" varchar(64) [default: NULL, note: '联系方式'] "title" varchar(128) [default: NULL, note: '举报标题'] "content" varchar(2048) [default: NULL, note: '举报内容'] "response" varchar(2048) [default: NULL, note: '裁判回复'] "status" varchar(64) [default: '待处理', note: '举报状态'] Note: '裁判举报表' } Table "role" { "id" int [pk, not null, increment, note: 'ID'] "name" varchar(32) [not null, note: '名称'] "description" varchar(64) [not null, note: '描述'] Indexes { name [type: btree, unique, name: "name"] } Note: '角色表' } Table "roles_authorities" { "id" int [pk, not null, increment, note: 'ID'] "roleId" int [not null, note: '角色ID'] "authorityId" int [not null, note: '权限ID'] Note: '角色权限表' } Table "rules" { "id" int [pk, not null, increment, note: '赛事规则ID'] "title" varchar(255) [default: NULL, note: '赛事规则标题'] "publisher" varchar(100) [default: NULL, note: '发布人'] "description" text [note: '赛事规则详细描述'] "created_at" datetime [default: `CURRENT_TIMESTAMP`, note: '规则创建时间'] "updated_at" datetime [default: `CURRENT_TIMESTAMP`, note: '规则最后更新时间'] Note: '赛事规则表' } Table "team" { "id" int [pk, not null, increment, note: '队伍ID'] "team_name" varchar(255) [not null, note: '队伍名称'] "team_avatar" varchar(255) [default: NULL, note: '队伍头像URL'] "team_description" text [note: '队伍描述'] "created_at" datetime [default: `CURRENT_TIMESTAMP`, note: '创建时间'] "updated_at" datetime [default: `CURRENT_TIMESTAMP`, note: '更新时间'] Note: '队伍表' } Table "team_member" { "id" int [pk, not null, increment, note: '队员ID'] "name" varchar(64) [not null, note: '队员姓名'] "avatar" varchar(256) [default: NULL, note: '队员头像(存储头像图片的URL)'] "team_id" int [not null, note: '所属战队ID'] "position" varchar(64) [default: NULL, note: '游戏位置(例如:上单、中单、打野、辅助等)'] "kills" int [default: 0, note: '击杀数'] "assists" int [default: 0, note: '助攻数'] "survival_time" int [default: 0, note: '生存时间(单位:秒)'] "damage" int [default: 0, note: '伤害值'] "gold" int [default: 0, note: '经济(例如:金币数量)'] "vision" int [default: 0, note: '视野(例如:视野控制次数)'] "match_record" text [note: '比赛记录(可以是JSON或本描述)'] "created_at" datetime [default: `CURRENT_TIMESTAMP`, note: '创建时间'] "updated_at" datetime [default: `CURRENT_TIMESTAMP`, note: '更新时间'] Indexes { team_id [type: btree, name: "fk_team_member_team_id"] } Note: '队员信息表' } Table "team_member_heroes" { "team_member_id" int [not null, note: '队员ID'] "hero_id" int [not null, note: '英雄ID'] Indexes { (team_member_id, hero_id) [pk, type: btree] hero_id [type: btree, name: "hero_id"] } } Table "tickets" { "id" int [pk, not null, increment] "match_id" int [not null] "ticket_type" varchar(50) [default: NULL] "price" decimal(10,2) [default: NULL] "total_quantity" int [default: NULL] "sold_quantity" int [default: 0] "create_time" timestamp [default: `CURRENT_TIMESTAMP`] Indexes { match_id [type: btree, name: "match_id"] } } Table "user" { "id" int [pk, not null, increment, note: 'ID'] "name" varchar(32) [default: NULL, note: '名称'] "username" varchar(16) [not null, note: '账号'] "password" varchar(512) [not null, note: '密码'] "avatar" varchar(128) [default: NULL, note: '头像'] "token" varchar(512) [default: NULL, note: '令牌'] "roleId" int [not null, note: '角色ID'] "loggedAt" datetime [default: NULL, note: '登录于'] "deletedAt" datetime [default: NULL, note: '删除于'] "registeredAt" datetime [not null, note: '注册于'] Indexes { username [type: btree, unique, name: "username"] } Note: '用户表' } Ref "comments_ibfk_1":"news"."id" < "comments"."news_id" [update: cascade, delete: cascade] Ref "match_rounds_ibfk_1":"matches"."id" < "match_rounds"."match_id" [update: cascade, delete: cascade] Ref "matches_ibfk_1":"team"."id" < "matches"."team1_id" [update: cascade, delete: cascade] Ref "matches_ibfk_2":"team"."id" < "matches"."team2_id" [update: cascade, delete: cascade] Ref "fk_ticket_id":"tickets"."id" < "orders"."ticket_id" [update: cascade, delete: cascade] Ref "player_stats_ibfk_1":"match_rounds"."id" < "player_stats"."round_id" [update: cascade, delete: cascade] Ref "player_stats_ibfk_2":"team_member"."id" < "player_stats"."team_member_id" [update: cascade, delete: cascade] Ref "player_stats_ibfk_3":"hero"."id" < "player_stats"."hero_id" [update: cascade, delete: cascade] Ref "fk_username":"user"."username" < "referee"."username" [update: restrict, delete: restrict] Ref "fk_team_member_team_id":"team"."id" < "team_member"."team_id" [update: cascade, delete: cascade] Ref "team_member_heroes_ibfk_1":"team_member"."id" < "team_member_heroes"."team_member_id" [update: cascade, delete: cascade] Ref "team_member_heroes_ibfk_2":"hero"."id" < "team_member_heroes"."hero_id" [update: cascade, delete: cascade] Ref "tickets_ibfk_1":"matches"."id" < "tickets"."match_id" [update: restrict, delete: restrict] 生成er图
05-12
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值