
机器学习
文章平均质量分 92
Momodel平台
Momodel,专注人工智能的教学实训平台,依托于浙江大学致力提供最优质的AI教育资源与在线一站式开发环境。来 Mo,体验由浙江大学计算机科学学院专家教授搭建的课程,以及全新教学模式 Mo-Tutor,更有海量 AI 项目、数据集分享,以及Python 在线编程、模型训练服务和赛事信息。更多内容敬请关注官方网站。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
调整大法好!如何让AI更懂你的心声?
生成式人工智能现在已成为研究人员和普通大众的热门话题。现在比以往任何时候都更重要的是,研究人员和工程师(即那些开发技术的人)必须培养一种向他人传达其创作细节的能力。如果不能以一种易于理解和易于理解的方式传达人工智能的技术方面,可能会导致公众普遍怀疑(例如,核能研究走上了类似的道路)或颁布过于严格的立法,阻碍我们领域的进步。这是一个简单的三部分框架,您可以使用它向(几乎)任何人解释生成语言模型。尽管人工智能研究人员可能很了解这些技术,但我们也必须知道如何用简单的术语解释它们!转载 2024-08-02 22:30:00 · 93 阅读 · 0 评论 -
快速入门机器学习 干货核心概念梳理
机器学习( Machine Learning )是一种人工智能( AI )领域的技术和方法,它使计算机系统能够从数据中学习并自动改进。机器学习的目标是让计算机系统能够根据给定的数据和经验,自动识别模式并做出预测或做出决策。通过机器学习,计算机系统可以不断地从经验中学习,逐步改进其性能。在本文章中,我们将介绍机器学习的广泛应用、监督学习和无监督学习的常见机器学习方法,以及机器学习中的常见算法方法,包括 K 最近邻算法、决策树算法和深度学习。原创 2023-05-09 10:52:03 · 536 阅读 · 0 评论 -
【Mo&AI TIME 人工智能技术博客】矛与盾的对决——神经网络后门攻防
本篇文章内容转载于“AI TIME论道”公众号,秉持着合作共享的信念,希望给热爱人工智能的你们,提供更全面、前沿的人工智能和学科发展资讯。2022年7月9日,AI TIME组织了Ph.D. Debate第十一期,题为“矛与盾的对决——神经网络后门攻防”的研讨活动,特别邀请了宾夕法尼亚州州立大学电子工程系博士生向臻、清华大学博士生李一鸣、弗吉尼亚理工计算机工程博士生曾祎和普渡大学计算机科学博士生沈广宇作为嘉宾,与大家一起回顾与展望神经网络的后门攻击与防御。随着神经网络的深入研究,网络的性能在不断的逼近人类转载 2023-04-04 11:21:15 · 442 阅读 · 0 评论 -
【Mo 人工智能技术博客】浅谈联邦半监督学习及FedMatch算法
【技术博客】浅谈联邦半监督学习及FedMatch算法作者:余敏君1 前言以往的联邦学习工作往往仅专注于对监督学习任务的研究,即要求所有的数据都必须包含相应的标签。但是,在现实场景中,考虑到大数据量标注任务所需要的人力和物力开销是非常大的,因此本地客户端所包含的数据常常大部分甚至全部都是没有相应标签信息的。为了解决上述问题,大量新的学习范式应运而生。这其中,半监督学习作为一种解决标签数据量小问题的有效方法,被广大机器学习研究者所偏爱。本博客将从联邦半监督学习入手,为大家介绍其相关的基本概念,并详细讲解一原创 2020-12-01 21:16:36 · 2614 阅读 · 1 评论 -
【Mo 人工智能技术博客】浅谈多任务与联邦学习
多任务中一直很难避免数据隐私泄露的问题,引入联邦学习机制可以有效地避免隐私问题并且带来膜性能的提升。Federated Learning for Vision-and-Language Grounding Problems 这篇论文将多任务与联邦学习有机地结合了在一起,解决了Vision-and-Language Grounding Problems。借助这篇今年发表在AAAI的论文,浅谈多任务与联邦学习。论文主要工作提出一种联邦学习框架,通过生成细粒度的图像表示,框架提高了在不需要共享下游任务数据原创 2020-11-17 16:22:48 · 2743 阅读 · 0 评论 -
【Mo 人工智能技术博客】GAN入门实践
【技术博客】GAN入门实践作者:梅昊铭1. 原理介绍GAN全称是 Generative Adversarial Network,即生成对抗网络。Generative 学习一个生成式模型;Adversarial 使用对抗的方法训练;Networks 使用神经网络。GAN 模型是一种通过对抗的方式去学习数据分布的生成式模型,其核心思想就是通过生成式网络G(Generator)和判别网络D(Discriminator)不断博弈,来达到生成真数据的目的。 最早是在2006年由 Bulica 提出的,在2014年 Hinton 对知识蒸馏做了归纳和发展。知识蒸馏主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。Hinton 在2015年发表的论文中提出了‘softmax temperature’的概念,对 softmax 函数做了改进:。B希望能够将他所独有的特征信息与A所独有的特征信息相结合,训练出一个更强大的识别客户信用风险的模型,但由于不同行业之间的行政手续,用户数据隐私安全等因素,企业A,B无法直接互通数据,联邦学习应运而生。联邦学习概述联邦学习的定义联邦学习旨在建立一个基于分布数据集的联邦学习模型。在模型训练的过程中,模型相关原创 2020-09-15 14:21:47 · 6030 阅读 · 6 评论 -
【Mo 人工智能技术博客】基于AlexNet网络的垃圾分类
【技术博客】基于AlexNet网络的垃圾分类AlexNetAlexNet模型来源于论文-ImageNet Classification with Deep Convolutional Neural Networks,作者Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton.AlexNet在ImageNet LSVRC-2012比赛中,达到最低的15.3%的Top-5错误率,比第二名低10.8个百分点。网络结构AlexNet包含八层,前五层是卷积层,最后三原创 2020-09-08 20:22:02 · 1285 阅读 · 1 评论 -
想写一本书,而这是序言
口袋书`序言现在的风口是什么?很多人会答人工智能(Artificial Intelligence, AI)人工智能是一项伟大的发明。我们不得不承认,它已经为社会带来了翻天覆地的变化,并 将在未来卷起更大的风暴 。不了解人工智能,就难以在这个 中小学生都已经开始学习编程 的时代,赶上时代的浪潮。人工智能向每一个人袭去,可是 并非每个人都知道什么是人工智能 。于是,他们只能磕磕绊绊地跟上。想要把任何一门学科讲清楚 都非常艰难,尤其是人工智能这般正处在快速变化、发展中的专业。懂行的人能轻松道出人工原创 2021-06-10 13:59:42 · 296 阅读 · 0 评论 -
【Mo 人工智能技术博客】激活函数(一)浅谈激活函数以及其发展
【专栏2】激活函数(一)浅谈激活函数以及其发展激活函数是神经网络的相当重要的一部分,在神经网络的发展史上,各种激活函数也是一个研究的方向。我们在学习中,往往没有思考过——为什么用这个函数以及它们是从何而来? 是一个基于 PyTorch 的图神经网络库,地原创 2020-12-22 13:18:32 · 1740 阅读 · 0 评论 -
【Mo 人工智能技术博客】联邦学习鲁棒性及相关论文分享
【技术博客】联邦学习鲁棒性及相关论文分享叶寅1 背景知识联邦学习系统比较容易受到各种错误的影响。这些错误包括一些非恶意性错误(比如预处理流程中的漏洞、噪音过强的训练标签和不可靠的用户),还包括一些旨在破坏系统训练过程和部署流程的显式攻击。这些非恶意性错误和显式攻击的影响,都可能会使系统的鲁棒性难以实现。这里我们主要讨论后者,也就是显示攻击:破坏联邦学习鲁棒性的攻击方,试图以一种对模型不利的方式修改来模型行为。根据攻击目标的不同,可以分为:1、无目标攻击,这类攻击的目标是降低模型的全局精度或全面“摧毁”原创 2020-12-15 12:28:21 · 2768 阅读 · 4 评论 -
【Mo 人工智能技术博客】图卷积网络概述及其在论文分类上的应用
近年来,深度学习在计算机视觉、自然语言处理等领域大放异彩。这些领域所面对的数据都是结构化的,如图像、音频、文本等,它们内部都有明确的排列规则。结构化的数据由于具有这些确定的规则而方便处理,但是在现实生活中,非结构化的关系数据才是主流。我们无时无刻不在面临着关系数据:构成物质的分子是一种由各种原子组成的关系网络;人类社会是一种以人为节点组成的社交网络;整个宇宙更是一种异质、非均匀的大型网络。有实体的地方一定有关系,关系中同样蕴藏着丰富的信息。与一般的深度学习方法不同,图神经网络(GNN)是一种可用来从网络(图原创 2020-12-08 21:40:04 · 965 阅读 · 0 评论 -
【Mo 人工智能技术博客】当蒸馏遇上GAN
什么是知识蒸馏我们知道在深度学习的大部分网络中,有很多神经元是冗余的,所以很多网络的参数量是巨大的,但是在很多移动端,比如手机上,是跑不动这么大的网络的。所以知识蒸馏的一开始的目标是做模型压缩,它的目标就是让一个更小的网络去拟合甚至是超越教师网络的性能。在通常情况下,学生网络的在蒸馏阶段的目标可以用这样的一个函数来表示,这里的损失函数L根据算法对知识的定义不同也会有不同的函数表示。。解决这个问题的方法我们称之为持续学习(continual learning)。本文重点探讨了近年来的持续学习的一些经典方法,旨在能够更好的了解这个问题,能够深入解决这个问题,能够为未来工作带来便利。关键词:灾难性遗忘, 持续学习2. 引原创 2020-10-27 09:54:09 · 1435 阅读 · 2 评论 -
【Mo 人工智能技术博客】神经网络分布式训练中参数优先传播方法
技术博客神经网络分布式训练中参数优先传播方法作者:倪昊这篇论文来自 2019 年 SysML 会议中 Parallel & Distributed Learning 的部分。数据并行训练(Data parallel training) 已经广泛地运用在在深度神经网络的分布式计算中,但是,分布式计算带来的性能提升经常受限于参数同步性能的瓶颈。作者等人提出了一种新的参数同步机制:Priority-based Parameter Propagation (P3),提高了模型的训练集群对网络带宽的利用原创 2020-10-06 10:26:37 · 585 阅读 · 1 评论 -
【Mo 人工智能技术博客】对抗性域适应
域适应简介域适应是迁移学习中最常见的问题之一,域不同但任务相同,且源域数据有标签,目标域数据没有标签或者很少数据有标签。域适应通过将源域和目标域的特征投影到相似的特征空间,这样就可以拿源域的分类器对目标域进行分类了下面拿二分类做说明,如下图:的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置。计算机视觉中关于图像识别有四大类任务:1.分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。2.定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。3.检测-Detection:解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物是什么原创 2020-08-18 21:53:05 · 1214 阅读 · 3 评论 -
【Mo 人工智能技术博客】ResNet的介绍和实现
ResNet的介绍和实现ResNet的介绍为什么要用ResNet我们都知道:在训练卷积神经网络的过程中,当浅层的神经网络训练效果较差时,可以通过适当地加深网络的层数,从而获取一个优化效果更好的模型。这是因为随着网络的深度的增加,网络所能提取的信息就能更加的丰富。然而在实际的实验过程中,我们会发现:随着网络深度的加深,训练集的loss首先会逐渐下降,然后趋于平缓;当我们继续加深网络的深度时,训练集的loss反而开始上升。也就是说,网络出现了“退化”(degradation)的现象。![图1.png]原创 2020-08-11 16:49:39 · 1574 阅读 · 1 评论 -
【Mo 人工智能技术博客】GPU 编程之从零开始实现 MNIST-CNN
【技术博客】GPU 编程之从零开始实现 MNIST-CNN很多人最开始接触“ GPU ”想必都是通过游戏,一块高性能的 GPU 能带来非凡的游戏体验。而真正使GPU被越来越多人熟知是因为机器学习、深度学习的大热(也有人用于比特币挖矿),因为庞大的数据与计算量需要更快的处理速度,GPU 编程也因此越来越普遍。从事深度学习的工作者常常自嘲自己为“炼丹师”,因为日常工作是:搭网络,调参,调参,调参…作为刚入门深度学习的小白更是如此,虽然不停的复现着一个又一个的网络,但总有些迷茫。我想这个迷茫来源于深度学习的“原创 2020-08-04 19:38:11 · 562 阅读 · 0 评论 -
【Mo 人工智能技术博客】基于垃圾目标检测任务的YOLOv5初探
基于垃圾目标检测任务的YOLOv5初探作者:余敏君研究背景垃圾分类作为一种有效处理垃圾的科学管理方案,在提高资源利用率、缓解垃圾生产压力以及改善生态环境等方面具有重要意义,是我国社会主义现代化和城市化进程中所必须采取的策略,备受世界各国的迫切关注。2019年以来,随着上海市、杭州市等垃圾分类重点城市有关生活垃圾分类的立法、执法和监督等工作的顺利开展,人们对垃圾分类相关话题的关注度日渐提升,个人垃圾分类的意识也有了很大的提高。但与此同时,由于垃圾的种类极其丰富,个人对垃圾归类的模糊程度普遍较高,因此,垃原创 2020-07-28 19:36:34 · 9886 阅读 · 2 评论 -
机器实战训练直播教学活动——【非监督学习】来啦!
原创 2020-07-26 15:26:25 · 194 阅读 · 0 评论 -
【Mo 人工智能技术博客】生成式对抗网络模型综述
生成式对抗网络模型综述作者:张真源GANGAN简介生成式对抗网络(Generative adversarial networks,GANs)的核心思想源自于零和博弈,包括生成器和判别器两个部分。生成器接收随机变量并生成“假”样本,判别器则用于判断输入的样本是真实的还是合成的。两者通过相互对抗来获得彼此性能的提升。判别器所作的其实就是一个二分类任务,我们可以计算他的损失并进行反向传播求出梯度,从而进行参数更新。Missing Values2)All The Numerical Variables3)Distribution of the Numerical Variables4)Categoric原创 2020-07-08 19:56:27 · 2416 阅读 · 1 评论 -
【Mo 人工智能技术博客】seq2seq聊天机器人
seq2seq聊天机器人作者:魏祖昌一、背景介绍人工智能技术的进步,语音识别技术、自然语言处理等技术的成熟,智能客服的发展很好的承接当下传统人工客服所面临的挑战。智能客服能够24小时在线为不同用户同时解决问题,工作效率高等特点,这是传统人工客服不能替代的,它能为公司节省大量的人工客服成本。在这次疫情当中,由于总总原因,大家肯定多多少少都见识过各种各样的智能客服。本文就基于seq2seq来介绍一个聊天机器人。二、seq2seqSeq2Seq即Sequence to Sequence,是一种时序对映射原创 2020-05-26 12:04:42 · 1718 阅读 · 0 评论 -
【Mo 人工智能技术博客】K-means:无监督聚类的经典算法
K-means:无监督聚类的经典算法作者:郑培无监督学习是一类用于在数据中寻找模式的机器学习技术。无监督学习算法使用的输入数据都是没有标注过的,这意味着数据只给出了输入变量(自变量 X)而没有给出相应的输出变量(因变量)。在无监督学习中,算法本身将发掘数据中有趣的结构。在监督学习中,系统试图从之前给出的示例中学习。(而在无监督学习中,系统试图从给定的示例中直接找到模式。)因此,如果数据集被标注过了,这就是一个监督学习问题;而如果数据没有被标注过,这就是一个无监督学习问题。聚类属于无监督学习,以往的回归原创 2020-05-19 21:37:48 · 4536 阅读 · 1 评论 -
【Mo 人工智能技术博客】python玩转信号处理与机器学习入门
python玩转信号处理与机器学习入门作者:王镇面对毫无规律的随机信号,看着杂乱无章的振动波形,你是否也像曾经的我一样一头雾水,不知从何处下手。莫慌,接下来小编就带你入门怎样用python处理这些看似毫无卵用实则蕴藏巨大信息的随机信号。我们日常生活中所见的心电图,声波图都是信号在时域上的一种表现,但它们无法呈现出信号在频域上的信息。因此,本文将主要介绍信号从时域到频域上的一些变换,常见的有FFT(快速傅里叶变换),PSD(功率谱密度),auto-correlation(自相关分析)。最后小编将带你完成一原创 2020-05-13 20:32:13 · 2580 阅读 · 0 评论 -
【Mo 人工智能技术博客】基于 Python 和 NLTK 的推特情感分析
基于 Python 和 NLTK 的推特情感分析作者:宋彤彤1. 导读NLTK 是 Python 的一个自然语言处理模块,其中实现了朴素贝叶斯分类算法。这次 Mo 来教大家如何通过 python 和 nltk 模块实现对推文按照正面情绪(positive)和负面情绪(negative)进行归类。在项目内部有可运行的代码教程 naive_code.ipynb 和 经过整理方便进行部署的部署文...原创 2020-05-06 18:39:38 · 1790 阅读 · 0 评论 -
【Mo 人工智能技术博客】特征工程介绍
特征工程介绍作者:林泽龙1 特征工程是什么?优秀的模型往往取决于优秀的特征提取,而特征提取就需要涉及到特征工程了。特征工程是的目的是最大限度地从原始数据中提取特征以供算法和模型使用。因此特征工程主要是在特征处理方面进行,接下来向大家介绍几种经典和有效的特征工程方法。实践前需要安装sklearn库,它提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。本文中使用sklearn中的...原创 2020-04-21 10:52:04 · 460 阅读 · 0 评论 -
Mo平台部署介绍
Mo平台部署介绍转眼间我们的技术博客栏目也已经发布到第23期啦,小Mo已经为大家介绍了各种领域许多不同的机器学习算法与实现。之前呢,我们的工作人员也与Mo-AI俱乐部的大家做了小小的调研~希望能够做出更多大家想要看到的主题!那第一个就是你啦,非常感谢这位朋友提给我们的意见,今天我们就来看看,在Mo平台上,怎么部署一个训练好的模型,能够方便大家直接调用。1. 新建一个项目在工作台中新建一个...原创 2020-04-14 22:15:50 · 2475 阅读 · 1 评论 -
【Mo 人工智能技术博客】深度学习新星:图卷积神经网络GCN
深度学习新星:图卷积神经网络GCN作者:金松引言深度学习一直都是被几大经典模型给统治着,如CNN、RNN等等,它们无论再CV还是NLP领域都取得了优异的效果,那这个GCN是怎么跑出来的?是因为我们发现了很多CNN、RNN无法解决或者效果不好的问题——图结构的数据。图片或者语言,都属于欧式空间的数据,因此才有维度的概念,欧式空间的数据的特点就是结构很规则。但是现实生活中,其实有很多很多不规则...原创 2020-04-07 13:44:25 · 1464 阅读 · 1 评论 -
【Mo 人工智能技术博客】用Python做中文分词与词云制作
作者:梅昊铭1. 导读在大数据时代,我们经常在媒体或者网站上看到各种各样的信息图。词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。对于中文文本的可视化,我们需要先将中文文本进行分词;然后再将文本中的关键词做词云展示。本文将教大家如何使用Python来做中文分词并制作词云,欢迎大家跟着教程一步步实现。项目地址:https://momodel.cn/workspace...原创 2020-03-31 13:24:49 · 3151 阅读 · 0 评论 -
【Mo 人工智能技术博客】CNN实现表情识别
作者:魏祖昌一、背景介绍2020年1月29日,教育部有关负责人在接受采访时表示,防控新型冠状病毒肺炎是当前头等重要的大事,各级教育部门正按教育部和当地党委政府统一部署要求,全力防控,坚决防止疫情在学校蔓延,延期开学是其中的一项重要举措。与此同时,各地教育部门也为服务保障防控疫情期间中小学校“停课不停教、不停学”做了大量工作。线上教学随即由此出现了。但是随着网络教学的升入进行,教师不能通过像教......原创 2020-03-24 12:33:48 · 4150 阅读 · 3 评论 -
【Mo 人工智能技术博客】文本挖掘之LDA主题模型
文本挖掘之LDA主题模型作者:郑培引言主题模型是文本挖掘的重要工具,近年来在工业界和学术界都获得了非常多的关注。在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。Latent Dirichl.........原创 2020-03-17 11:26:14 · 9570 阅读 · 1 评论 -
【Mo 人工智能技术博客】CNN网络实现垃圾分类
作者:王镇1. 背景自2019年7月1日起,随着《上海市生活垃圾管理条例》正式实施,垃圾分类工作在全国由点到面逐步推开。垃圾分类可以最大限度的实现垃圾资源利用,减少垃圾处置量,改善生存环境质量,降低垃圾对于地下水的污染。由于垃圾分类条例刚开始实施,很多居民还没有足够强的垃圾分类意识,生活中垃圾分类并没能得到很好的落实。因此垃圾收集站依然有很强的垃圾自动分类需求。本文通过搭建一个简单的CNN网络......原创 2020-03-10 13:47:35 · 5628 阅读 · 2 评论 -
【Mo 人工智能技术博客】基于YOLOv1的视频口罩检测
作者:宋彤彤2019 新冠肺炎疫情爆发,让人们的出行发生了很大的变化——自 1 月 24 日武汉宣布封城之后,各省市陆续启动重大突发公共卫生事件一级响应以控制人口流动。很多城市都已规定必须佩戴口罩、测量体温才能搭乘公共交通。2 月 10 号返工日之前,上海、北京等重点城市也陆续放出新规:出入机场、轨道交通、长途汽车站、医疗卫生机构、商场超市等公共场所,未佩戴口罩者将被劝阻。2 月 13 日,百...原创 2020-03-10 14:27:29 · 279 阅读 · 1 评论 -
【Mo 人工智能技术博客】特征选择和数据可视化
作者:支广达数据对于我们大多数人来说,都是抽象无序的,今天就让我们来试一试,如何用python将抽象数据可视化为清晰明了的图表吧!对从事算法研究或者数据分析的人来说,数据可视化可能并不是很受欢迎,毕竟数据可视化并不能给研究的内容带来直接的回报,而且制作过程可能比较枯燥,可以说是有点吃力不讨好。但是其实数据可视化可以潜在的让你更加了解你的数据,一个好的数据可视化思路,可以让你在着......原创 2020-02-25 10:35:21 · 3943 阅读 · 1 评论