看了第一次的直播课程中,因为不是研究这个领域的,但是近期有可能会涉猎CV,所以打算学习一波。
关于OpenMMLab,是一个开放源代码项目,旨在推动机器学习和计算机视觉领域的发展。该项目由多个库构成,包括MMDetection、MMCV、MMSegmentation等,这些库提供了一系列的算法和预训练模型,支持各种计算机视觉任务,例如图像分类、目标检测、图像分割和姿态估计等。
第一次课介绍了各种训练模型:
MMDetection是一个目标检测算法库,无论在学术还是工业领域都有广泛的应用。其大量的预训练模型可以立即使用,极大地提高了其便利性。
MMYoLo是另一个目标检测算法库,主要用于目标检测和实例分割。
MMOCR是一个文本检测和识别算法库,具有文本检测、字符识别和关键信息提取等功能。
MMDetection3D是一个3D目标检测算法库,在自动驾驶领域有许多应用。
MMRotate是一个独特的,有方向性的目标检测算法库。例如,它可以检测道路上的汽车,并准确地定位他们,使用准确的车辆轮廓。
MMSegmentation是一个图像分割算法库,用于语义分割,应用场景包括街景、自动驾驶、卫星图像、医疗诊断等。
MMPretrain集合了图像分类、预训练和多模态算法。它覆盖了图像分类、图像描述、视觉问题回答、视觉定位、检索等,并包含了各种自监督策略、对比学习、掩码学习和前端多模态算法,同时提供了详细的文档。
MMPose是一个姿态估计算法库,可以检测人脸、身体、手、动物、衣服等的关键点。
MMHuman3D是一个3D人体姿态估计算法库。它使用3D数字人来拟合真人,在动作捕捉和虚拟现实场景中被使用。
MMAction2是一个视频动作识别算法库,具有行为识别、时序动作检测和时空动作检测等功能。
MMagic结合了生成模型、底层视觉和AIGC算法。它的应用包括AI绘画、图像去噪、超分辨率、帧插补和图像修复等。
只有训练模型是不够的;模型部署是至关重要的,同时也面临着诸如实时快速响应、本地端点、硬件多样性、计算能力弱、数据隐私等挑战。
MMDeploy是用于模型部署的工具箱,帮助将前述训练模型转换并部署成通用的应用。
这个是新的领域,所以需要花更多时间查阅资料,最好能配合一些代码实践。