- 博客(10)
- 收藏
- 关注
原创 大模型学习【大模型的数据】
在整个数据集的生命周期中,我们需要考虑很多问题,比如数据集的创建动机,谁是数据集的创建者,数据集的创建是由谁资助的。在数据集的组成部分,我们需要了解数据集中的实例代表什么,是否有缺失信息,是否包含机密数据等。在收集过程中,我们需要了解每个实例的数据是如何获取的,谁参与了数据收集,他们是如何获得报酬的,以及是否进行了道德审查等。也就是说,虽然OpenWebText并非OpenAI直接发布的WebText的副本,但它遵循了WebText的制作思路和方法,目的是尽可能地模拟和复现WebText的数据特性和结构。
2023-09-15 02:16:30
1024
1
原创 大模型学习【大模型的有害性】
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。然而,在我们深入讨论之前,需要指出的是,语言模型与这些伤害之间存在一种断裂。语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。然而,这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着我们需要将这些伤害视为文本的属性,而是需要从更广泛的社会语境中考虑。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。
2023-09-13 23:13:54
1094
原创 大模型学习【大模型的能力】
GPT-3在广泛的标准NLP基准测试和一次性任务上进行了评估。GPT-3可以表现得极好或者非常普通。增加模型的大小和示例的数量都有助于提高性能。有一些启发式的方法可以将语言模型适应到感兴趣的任务。但是为什么会有这样表现,没有人知道。
2023-09-13 00:55:23
199
原创 语义分割学习【Day 5】
'''随机产生一种绘图线型'''for each_class in class_list: # 遍历每个类别\|(.*)?\|'.format(each_class) # 定义该类别的正则表达式# 匹配for each_class in class_list: # 遍历每个类别find_string = re.findall(metrics_json[each_class]['re_pattern'], logs) # 粗匹配。
2023-08-19 23:50:40
326
原创 基于论文摘要的文本分类挑战赛学习笔记【1】
可以发现,Bert预训练模型具备非常强大的文本理解能力。后续可以研究一下如果通过微调提高实验效果。
2023-08-18 19:20:22
391
1
原创 语义分割学习【Day 3】
Cityscapes语义分割数据集:https://www.cityscapes-dataset.com。接下来我们尝试利用API接口调用分割算法。以street_uk.jpeg为例。下载数据到data目录下。
2023-08-16 00:32:21
284
1
原创 语义分割学习【Day 1】
本教程以西瓜红瓤、白籽、黑籽、白皮、绿壳语义分割为例,结合OpenMMLab开源语义分割算法库MMSegmentation,全面详细讲解项目全流程:数据集:Labelme标注数据集、SAM分割一切视觉大模型辅助标注、整理标注格式为mask格式、可视化探索数据集使用MMSegmentation预训练的语义分割模型,对街景图片和视频做预测语义分割:分别训练UNet、DeepLabV3+、PSPNet、KNet、Segformer、Mask2Former语义分割算法,在测试集评估性能。
2023-08-14 22:22:33
209
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人