视频自动问答生成与眼底血管提取技术解析
视频自动问答生成系统
- 系统概述
- 该系统是一个轻量级系统,相较于现有系统,能确保生成的问题相关且自然。系统由两个模块组成,第一个模块用于文本提取,借助 moviepy 库进行音频转换,利用 IBM Watson 语音转文本 API 提取文本;第二个模块用于问题生成,采用在 T5 变压器上微调的变压器库模型来生成问题。
- 系统要求与工具
- 系统要求至少 8GB 安装内存,使用英特尔(R)酷睿(TM)2 双核 CPU E7500 处理器,运行在 64 位操作系统上。实现工具包括 Python3 和 Jupyter 笔记本。
- 系统设计流程
- 用户会看到一个网页应用程序。
- 应用程序的用户界面允许用户上传视频,并选择要生成的问题类型(WH 或是非问题)。
- 用户上传用于生成问题的视频。
- 使用 moviepy 库将上传的视频转换为音频文件。
- 使用 IBM Watson 语音转文本 API 转录音频文件并存储文本。
- 如果用户选择了 WH 问题,则 WH 问题生成器函数运行,使用在 T5 变压器上微调的 Huggingface 库模型生成问题。
- 如果用户选择了是非问题,则是非问题生成器函数运行,使用在 T5 变压器上微
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



