
技术博客
文章平均质量分 93
格物钛工程师
格物钛智能科技作为非结构化数据赋能专家,为企业及AI开发者提供全新的智能时代数据管理方案,以数据引擎为核心技术,打造下一代数据平台,解决非结构化数据难发现、难管理、难利用等痛点,帮助企业筑牢新基建底层,实现海量复杂数据的灵活存取用,助推AI工程化和数据资产化最佳实践。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
技术博客丨神经网络不再“卷” 全靠“变形金刚”
卷积神经网络(CNN)一直是计算机视觉和图像处理的主要技术支柱。与传统的多层感知器(MLP)相比,卷积网络在二维邻域感知和平移同变性方面具有显著优势。然而,最近在自然语言处理领域刮起了一阵新趋势,越来越多的人开始用Transformer来取代递归神经网络,而这也让CV从业者对Transformer的潜力感到非常好奇。原创 2021-12-23 10:59:12 · 2373 阅读 · 0 评论 -
格物钛数据平台国内外经典开源数据汇总(自动驾驶、目标检测、人脸识别、人体姿态估计、文本检测、NLP、医疗)
本文整理了国内外经典的开源数据,包含了目标检测、自动驾驶、人脸识别、自然语言处理、文本检测、医疗等方向,具体如下。一、自动驾驶领域数据集KITTI数据集KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。原创 2021-11-19 14:41:35 · 1835 阅读 · 0 评论 -
多数据集连接问题的探索
近期,浙江大学欧明锋在TechBeat人工智能社区进行了“以数据为中心的研究探索”的分享。分享内容来源于在格物钛实习期间,与科学顾问赵俊博、CEO崔运凯、算法负责人薛林继合作完成的论文《Joining datasets via data augmentation in the label space for neural networks》。论文基于格物钛Open dataset数据集研究,成功被2021机器学习顶会ICML收录。Talk主要聚焦同领域相似的同构数据集的连接融合问题,并提出解决思路与方案。原创 2021-11-18 18:31:57 · 1239 阅读 · 0 评论 -
建立公开数据集标准,赋能AI工程化落地
建立公开数据集标准,赋能AI工程化落地近期,由DataFun主办的AI基础软件架构峰会圆满落幕,格物钛作为AI基础设施领域的创业明星代表与谷歌、字节跳动、第四范式等顶尖科技公司一同亮相MLOps分论坛,格物钛算法负责人薛林继为线上观众带来了一场《建立公开数据集标准,赋能AI工程化落地》主题演讲。以下是演讲全文:建立公开数据集标准,赋能AI工程化落地大家好,我是来自格物钛的薛林继,现在负责算法这一块。今天给大家分享的标题叫做《建立公开数据集标准,赋能AI工程化落地》。格物钛一直在致力于创建下一代的原创 2021-11-12 14:24:46 · 3450 阅读 · 0 评论 -
企业如何完成大规模数据的版本管理
在人工智能产业中,数据资产是最容易被忽视的管理内容,而且随着业务的不断深入和递进,数据及其标注都在不断地增加和更新。在传统的管理方式中,每一次更新往往伴随着数据的一次全量复制和一次手动版本记录,由此引发的数据膨胀及衍生问题,往往需要耗费一个企业20%以上的时间和精力,在数据浩繁的自动驾驶领域所耗更甚,同时带来的,还有指数级增长的数据存储成本。git工具的出现,大大提高了代码版本管理的效率,提升了软件开发行业的整体效率。在这样的背景下,AI基础设施建设者格物钛提出了“像使用git管理代码一样管理数据”的概念原创 2021-10-20 11:54:30 · 453 阅读 · 0 评论 -
如何使用PyTorch简易搭建残差网络
作者:Ta-ying Chen,牛津大学机器学习博士研究生,Medium知名技术博主译者:颂贤时兴的自动驾驶和人脸检测等众多计算机视觉应用之所以能够实现都要归功于深度神经网络。然而,许多人可能都不知道的是,近年来计算机视觉的突破性进步都是由一种特定类型的网络架构推动的,也就是所谓的残差网络(residual network,ResNet)。事实上,我们所看到的诸多先进的人工智能成果,没有残差块(residual blocks)的发明都是不可能实现的。是残差块这个如此简单而优雅的概念,使我们有了真正.原创 2021-09-29 15:23:55 · 4734 阅读 · 0 评论 -
Data-centric vs. Model-centric. The Answer is Clear!
AI的中心到底是模型还是数据?作者:Dario Radecic,Medium 高质技术博主编译:颂贤图源:Brandon Lopez (Unsplash)一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法,然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代机器学习一个非常重要的核心——数据。如果我们没有处理好训练数据没,上百个小时的时间都会被浪费在调整一个低质量数据训练出来的模型上,模型的准确度很容易就会低于预期,而这和模型调优是没有太大关系的。怎样才能避免这样原创 2021-09-14 12:55:28 · 520 阅读 · 0 评论 -
手把手带你快速入门超越GAN的Normalizing Flow
手把手带你快速入门超越GAN的Normalizing Flow作者:Aryansh Omray,微软数据科学工程师,Medium技术博主机器学习领域的一个基本问题就是如何学习复杂数据的表征是机器学习。这项任务的重要性在于,现存的大量非结构化和无标签的数据,只有通过无监督式学习才能理解。密度估计、异常检测、文本总结、数据聚类、生物信息学、DNA建模等各方面的应用均需要完成这项任务。多年来,研究人员发明了许多方法来学习大型数据集的概率分布,包括生成对抗网络(GAN)、变分自编码器(VAE)和Norm原创 2021-09-07 15:54:25 · 3917 阅读 · 3 评论 -
技术博客|如何使用SSE进行通信
如何使用SSE进行通信作者:小鹿清孑明,格物钛前端部门,前端工程师前段时间在Tensorbay数据集管理平台前端开发过程中,需要实现一个action 中的 activity log 实时输出的feature,很突然的接触到了一个新技术,迫不及待地想要和大家分享一下!也就拖了2个月不到吧,SSE这不就来了嘛!WHAT?什么是SSE?SSE全称Server-Sent Events,字面意思就是服务器向客户端推送信息。我们知道,客户端和服务器端通信一般是通过http请求,而http请求无法做原创 2021-08-19 14:22:25 · 1794 阅读 · 0 评论 -
CIFAR-10数据集应用:快速入门数据增强方法Mixup,显著提升图像识别准确度
快速入门数据增强方法Mixup 显著提升图像识别准确度【关于格物钛】:格物钛公开数据集提供海量优质公开数据集搜索、数据托管、一站式搜索,与全球AI开发者共创公开数据集社区。本文介绍的是以格物钛公开数据集平台中的CIFAR-10数据集为基础,通过数据增强方法Mixup,显著提升图像识别准确度。作者|Ta-Ying Cheng,牛津大学博士研究生,Medium技术博主,多篇文章均被平台官方刊物Towards Data Science收录翻译|颂贤深度学习蓬勃发展的这几年来,图像分类一直是最为火热的原创 2021-08-17 15:33:40 · 2335 阅读 · 3 评论 -
一文使用PyTorch搭建GAN模型!
简单使用PyTorch搭建GAN模型作者|Ta-Ying Cheng,牛津大学博士研究生,Medium技术博主,多篇文章均被平台官方刊物Towards Data Science收录翻译|颂贤以往人们普遍认为生成图像是不可能完成的任务,因为按照传统的机器学习思路,我们根本没有真值(ground truth)可以拿来检验生成的图像是否合格。2014年,Goodfellow等人则提出生成对抗网络(Generative Adversarial Network, GAN),能够让我们完全依靠机器学习来生成原创 2021-08-11 15:30:14 · 2280 阅读 · 3 评论 -
深入浅出 Vue 数据响应式原理
深入浅出 Vue 数据响应式原理作者:道格(格物钛 Infra 团队,运维开发工程师 )在使用 Vue 框架进行开发的过程中,常常会遇到更新数据但是视图无法更新的 bug,从而对开发的进度造成阻塞。为了提高开发效率, 我们可以通过遵守最佳实践来减少类似的 bug 的频率。除此之外,若开发者对数据响应式的过程有更好的理解,也能在功能实现的过程中对代码有更好的把控,进而减少类似问题的发生。由此,为了帮助提升团队伙伴的开发效率,我对 vue 数据响应式的实现进行了探索,并将其实现简化成了可被执行的样例代原创 2021-08-02 17:23:23 · 233 阅读 · 0 评论 -
监督学习—从好的label开始
在大家的算法工作中,会训练各种各样的模型。导致大家模型实际应用效果不够好的原因有很多,一些常见的原因主要是模型结构不合理 、损失函数不合理 、超参数设置不合理,但除了这些原因,我想最核心的一个原因是数据的质量本身。相信每一个自动驾驶行业的开发者对此都是会深有体会的,Lyft 团队在CVPR的presentation上就发出了“High quality labeled data is the key”的感慨。这也是本篇文章想要着重强调的主题。下面通过一个实验来让大家直观感受一下“标注质量对模.原创 2020-08-12 15:41:14 · 659 阅读 · 0 评论 -
数据集管理的可视化 —— 现在与未来
随着ADAS、自动驾驶、新零售等领域的快速发展,非结构化数据的体量急剧增加,传统的机器学习算法无法处理复杂多变的数据,而深度学习是基于神经网络的一种算法,更适合被非结构化数据“包围”的今天。其所带来的高度依赖数据集的大规模学习方法,极大增加了对于大规模数据集的需求。深度学习进行模型训练的关键是高质量大规模训练的数据集。当前,市场上大部分的云商公司,对于非结构化处理主要提供存储服务,但没有针对非结构化数据本身提供更多的解决方案。例如,不同行业数据应该如何组织、如何训练、如何形成行业知识库。相应的,这些存储原创 2020-06-11 15:13:48 · 1882 阅读 · 0 评论 -
机器学习算法评估指标——3D语义分割
3D语义分割是在三维点云中对每个点进行分类,属于同一类的点都要被归为一类。 例如如下场景,属于建筑的点都要分成一类,属于植物的点也要分成一类。下面重点介绍3D语义分割算法的评估指标。PA(Point Accuracy)定义:总体的分类准确度,分类正确的点数和点云总点数的比值 范围:0~100% 用途:这是最简单的度量分割准确性的方式MPA(Mean Point Accuracy)定义:平均分类准确度,计算每一类分类正确的点数和该类的所有点数的比值然后求平均 范围:0~100%MIoU(原创 2020-06-10 14:41:27 · 2968 阅读 · 0 评论 -
机器学习算法评估指标——3D目标跟踪
与2D目标跟踪类似,3D目标跟踪可以分为单目标跟踪和多目标跟踪,首先介绍单目标跟踪(SOT)算法的常用评估指标;其次介绍多目标跟踪(MOT)算法的常用评估指标。单目标跟踪传统的评估tracker的方式是:在测试序列上运行一遍该跟踪算法(其中第一帧以ground truth作初始化),然后计算average precision或sucess rate。我们把这种只在测试序列上运行一遍的评估方法叫做one-pass evaluation (OPE)。然而tracker对初始化可能比较敏感,不同的起始帧可原创 2020-06-08 10:47:31 · 6354 阅读 · 4 评论 -
机器学习算法评估指标——3D目标检测
在真实的三维世界中,物体都是有三维形状的,许多应用都需要有目标物体的长宽高还有偏转角等信息。以自动驾驶为例,在自动驾驶场景下,需要从图像中提供目标物体三维大小及旋转角度等指标,鸟瞰投影的信息对于后续的路径规划和控制具有至关重要的作用。我们将使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。多类别目标的检测问题可以转换为“某类物体检测正确、检测错误”的二分类问题,从而可以构造混淆矩阵,使用目标分类的一系列指标评估模型精度,例如:使用P..原创 2020-06-01 15:38:29 · 6972 阅读 · 1 评论 -
机器学习算法评估指标——2D语义分割
语义分割有三大评价指标:执行时间、内存占用以及准确度。下面重点介绍语义分割准确度的评估指标。假设一共有k+1类(包括k个目标类和1个背景类),Pij表示本属于i类却预测为j类的像素点总数,具体地,Pii表示true positives,Pij(j≠i)表示false positives,Pji(i≠j)表示false negtivesPA(Pixel Accuracy)定义:分类正确的像素点数和所有的像素点数的比值 计算:范围:0~100% 用途:这是最简单的度量分割准确性的方.原创 2020-05-25 14:18:58 · 1106 阅读 · 0 评论 -
机器学习算法评估指标——2D目标跟踪
在2D目标跟踪任务中,我们需要从精度、鲁棒性、运行速度等方面对算法进行综合评估。首先介绍单目标跟踪(SOT)算法的常用评估指标;其次介绍多目标跟踪(MOT)算法的常用评估指标。单目标跟踪APE(Average Pixel Error)定义:平均像素误差,一般指中心距离,即预测框与真实框中心位置的像素距离取帧平均 用途:用来判断两个矩形框的靠近程度。该值越大,说明误差越大AOR(Average Overlap Rate)定义:平均重叠率,即两个矩形框交集的面积与并集的面积之比取帧平均原创 2020-05-21 14:11:58 · 3276 阅读 · 1 评论 -
机器学习算法评估指标——2D目标检测
目标检测是计算机视觉领域的传统任务,需要识别出图像上存在的物体,给出对应的类别,并将该物体的位置通过最小包围框(Bounding box)的方式给出。下面介绍2D目标检测任务的常用评价指标。IoU(Intersection over Union)定义:交并比,两个矩形框交集的面积与并集的面积之比 范围:0~100% 用途:判断两个矩形框的重叠程度,值越高则重叠程度越高,即两个框越靠近 IoU 和Overlap Rate定义是完全相同的,只不过在检测任务中常写作IoU,在跟踪任务中常...原创 2020-05-18 18:48:04 · 3279 阅读 · 0 评论 -
人工智能训练数据如何存储?存储数据最大的痛点是什么?
计算机视觉,或者语音识别都需要用到大量的标注过的非结构化数据,有什么好办法存储和管理这些数据吗?你是怎么存储原始数据和标签数据的呢?如何做可视化?存储过程中的痛点是什么?...原创 2020-04-30 23:24:15 · 1497 阅读 · 2 评论 -
公司组建一支算法团队的隐性成本都有哪些?
多年硅谷的工作经历告诉我们,组建一支算法团队远比认知的“昂贵”得多。比如需要为算法工程师和科学家们配备软件工程师,为他们做工具的支撑,需要采购诸如DGX或者Titan P级别的昂贵GPU和训练机器,可能还需要拥有标注团队和相关的项目经理。想听听AI从业者们如何看待这个问题?你的公司的隐性成本有哪些?...原创 2020-04-27 12:22:37 · 711 阅读 · 0 评论 -
算法工程师该如何做好时间管理?
多位硅谷算法工程朋友和我们分享过他们的日常,作为一个算法工程,其实有效开发算法的时间很少,很多时间都花在了寻找数据,数据拷贝,数据清洗,数据转换,可视化脚本撰写,安装框架(tensorflow,pytorch)的依赖,和标注团队对需求等等。做这些事情每周可能花费数10小时的时间,最高甚至高达95%。如果你是算法大人,你是怎么分配你的时间的?每样工作每周会花多少时间?或是占据你工作时间的百分比?...原创 2020-04-26 20:03:07 · 653 阅读 · 0 评论 -
数据库版本管理:Flyway探索与实践
引言:如果你是一个独立开发者或者不需要维护多个系统,那么维护数据库版本并不复杂。但是如果你的团队正在快速迭代或者同时开发多个功能,在多个环境版本并行,在多个生产服务器上部署你的服务,那么数据库的管理将变成一件麻烦事。如何更新所有的数据库,并维护好所有的更新记录,把多个人的操作合并起来带来了挑战。我们团队在开发的过程中也有同样的困扰。这篇文章将介绍我们团队是如何通过Flyway将这些问题逐一解...原创 2020-03-03 12:42:28 · 1078 阅读 · 0 评论