这个作业属于哪个课程 | 福州大学-202302软件工程实践 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 调研、评测产品,并进行分析,给出建议和规划 |
其他参考文献 | 构建之法、现代软件工程 团队作业 - 软件分析和用户需求调查 |
目录
第一部分 调研,评测
(一) 文心一言
(1) 使用体验
1、介绍和使用软件
介绍:文心一言是由百度研发的人工智能大语言模型产品,它利用深度学习技术和大模型语料库进行训练,能够通过上一句话来预测生成下一句话。用户可以通过输入prompt(指令)与文心一言进行对话互动,提出问题或者要求。
软件使用:在对文心一言进行使用后,我认为它的主要功能包括文本回答、特定场景下的prompt生成、AI绘图、插件使用、用户问题预测。
文本回答:用户可以输入自己想问的问题,或者想要大模型帮忙完成的任务,尽量将要求描述地完整、详细,用户描述的越详细,模型回答的效果就越好。
特定场景下的prompt生成:文心一言的UI界面中包含有“百宝箱”功能,其中有许多的已经写好的prompt,用户可以直接使用这些prompt来要求大模型完成特定的任务。
AI绘图:用户可以通过prompt提示输入相应的绘图要求,AI会调用相应的API完成绘图功能。
插件使用:用户可以通过对话框中的插件,添加附加的功能,例如图片解析、文档解析等。
用户问题预测:在回答完用户的问题后,会根据用户提出的问题和自己回答的内容预测下一次用户可能的提问,并给出选项。
2、优缺点分析
使用过程:登录文心一言的账号,根据《使用指南》里提供的文心一言的使用方法,尽量详细而具体地描述自己的问题,发送给大模型,大模型就会分析问题,并基于自己的“知识”生成答案。
输入相应的prompt即可指挥AI进行工作。
用户还可以通过对话框中的插件,使用附加的功能。
优缺点:
- 数据量:模型使用了大量的数据集进行训练,拥有广泛的知识覆盖和泛化能力;但是当处理用户输入时,若用户输入内容过长时,会超过模型所能接收的最大prompt限制。
- 界面:界面设计简洁,符合年轻用户群体的审美,无广告;但对老年用户、特殊需求用户的支持不足。
- 功能:可以应用于多种场景,包括AI绘图、图片解析、文档解析、思维导图、百宝箱等功能,并且还提供了文心大模型4.0的功能,拥有堪比chatgpt4.0的精确度。并且在回答完用户的问题后,会根据用户提出的问题和自己回答的内容预测下一次用户可能的提问,并给出选项;但在特定专业领域的功能支持上与通义千问相比略显不足。
- 准确度:由于基于大规模训练数据,在多数通用场景下的文本生成准确度较高;受到模型本身局限的影响,包括可能出现内容的局限性、表达不够优美、甚至产生误导信息等问题。有时候回答用户的prompt时也会出现答非所问的情况。
3、用户对产品的改进意见
- 优化prompt处理机制:可以提供一个提示功能,提醒用户在输入过长时如何更有效地提问。
- 提高模型在各个领域的专业知识和最新信息的准确性,引入更全面、更新鲜的知识库。
- 用户自定义设置:提供界面自定义选项,让用户根据自己的喜好和需求调整界面布局、颜色、字体等,提高用户体验。
- 增加社区功能,能与文心一言的其它用户进行沟通和交流。分享自己的AI使用心得。
4、采访用户
采访对象:软件工程专业柯昊旸同学。
柯昊旸同学能够上手被测产品的基本功能。软件使用过程中没有遇到什么明显的困难,软件本身倒是有出现一些小问题。不过不影响大部分情况的使用。
选择原因:主要原因在于其专业背景与软件工程实践经历,能够从技术使用者和潜在开发者双重视角提供对文心一言的深入评估,同时他的需求可能包括利用AI工具辅助学习、研究及创新项目开发。
TA的需求:
- 代码辅助:解答编程问题、提供代码示例、讨论算法思路。
- 项目开发:协助进行产品需求分析、功能设计讨论等。
- 学术支持:在撰写论文、研究项目中快速获取相关知识以及文献概括总结。
实际使用的产品栏目:
人机对话、特定场景下的prompt生成、AI绘图、插件使用。
使用软件的过程中遇到的问题和亮点:
问题:
响应速度不如预期;支持输入的token长度太短;AI绘图质量比较低。
亮点:
用户界面直观简洁、拥有《使用指南》,便于快速上手;会预测用户接下来可能要问什么问题,直接点击相应选项即可。
需要改进的地方:
问答问题的响应速度;
增加支持输入的token的长度;
(2) BUG描述
2.1 Bug量化指标
Bug严重程度 | 解释说明 |
---|---|
★★★★★ | 致命性系统故障、致命性安全性漏洞、用户体验严重影响 |
★★★★ | 严重系统故障、服务器鉴权漏洞或重要数据泄露、用户体验较差 |
★★★ | 中度系统故障、非致命性安全漏洞、关键数据不准确或丢失、用户操作流程中断 |
★★ | 较轻系统故障、次要功能缺失或不稳定、轻微性能波动、一般性用户体验不佳(如响应延迟等) |
★ | 轻微系统故障、不影响主要功能的视觉瑕疵、轻微文案错误、建议性用户体验改进点 |
2.2 Bug发生时的测试环境
操作系统环境:Windows 10 家庭中文版
操作系统版本:19045.4291
浏览器:Microsoft Edge
浏览器版本:123.0.2420.81 (正式版本) (64 位)
2.3 Bug的可复现性及具体复现步骤
(1)画图显示与用户要求不符
可复现性:偶然发生(30次出现13次)
具体复现步骤:使用画图指令要求文心一言进行绘图。对于个别指令,绘图结果会出现严重偏差。
具体情况描述:在使用文心一言进行绘图的时候,发现对于某些指令要求的图片能够较好地绘制出来,但是对于其它一些绘图指令,绘图效果不佳。
(2)有关用户定量的要求难以完成
可复现性:偶然发生(20次出现14次)
具体复现步骤:使用指令要求文心一言生成特定字数的内容。例如“写一篇300字的自然风景描述”。
具体情况描述:在写文案时,难免借助大模型工具,有时候在使用文心一言进行特定字数的内容生成时,无法生成指定字数的内容。
2.4 Bug分析
(1)画图显示与用户要求不符
1.1 Bug可能成因
- 模型的训练依赖于大量的数据集,而这些数据集可能无法涵盖所有可能的场景和风格。
- 用户提供的描述不够具体或存在歧义时,模型可能无法准确捕捉用户的意图。
1.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
1.3 对于Bug的预期及改进建议
预期:用户输入绘图指令,对于一些有歧义的指令