《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》

OpenDataLab联合大模型语料数据联盟发布了书生·万卷1.0,这是一个超过2TB的高质量多模态数据集,包含文本、图文和视频,经过精细处理和价值对齐,旨在支持学术界和产业界的大模型训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

国产大模型时代,高质量、开源、可信数据的重要性不言而喻,但它的稀缺性也是 AI 同行有目共睹的。为了改变这一现状,OpenDataLab 联合大模型语料数据联盟构建了“书生·万卷”数据集,旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。“书生·万卷” 1.0 版本 8 月14日正式发布,跟着小编详细了解一下吧。

一、书生·万卷1.0

书生·万卷1.0 为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了书生·万卷1.0,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

●在多元融合方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。

●在精细处理方面,书生·万卷1.0经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型训练需求。

●在价值对齐方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。

●在易用高效方面,研究人员在书生·万卷1.0采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型训练。

论文地址:https://arxiv.org/pdf/2308.10755.pdf

Github:https://github.com/opendatalab/WanJuan1.0

下载地址:https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0

目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语大模型的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

二、书生·万卷 文本数据集 1.0

书生·万卷文本数据集1.0 由来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成,数据总量超过5亿个文档,数据大小超过1TB。该语料将html、text、pdf、epub等多种格式的数据统一处理为字段统一的jsonl格式,并经过细粒度的清洗、去重、价值对齐,形成了一份安全可信、高质量的预训练语料。

● 组成

● 样例

{
    "id": "BkORdv3xK7IA0HG7pccr",
    "content": "\\*诗作[222]\n录自索菲娅·马克思的笔记本\n#### 人生\n时光倏忽即逝,\n宛如滔滔流水;\n时光带走的一切,\n永远都不会返回。\n生就是死,\n生就是不断死亡的过程;\n人们奋斗不息,\n却难以摆脱困顿;\n人走完生命的路,\n最后化为乌有;\n他的事业和追求\n湮没于时光的潮流。\n对于人的事业,\n精灵们投以嘲讽的目光;\n因为人的渴望是那样强烈,\n而人生道路是那样狭窄迷茫;\n人在沾沾自喜之后,\n便感到无穷的懊丧;\n那绵绵不尽的悔恨\n深藏在自己的心房;\n人贪婪追求的目标\n其实十分渺小;\n人生内容局限于此,\n那便是空虚的游戏。\n有人自命不凡,\n其实并不伟大;\n这种人的命运,\n就是自我丑化。\n卡尔·马克思\n#### 查理大帝\n使一个高贵心灵深受感动的一切,\n使所有美好心灵欢欣鼓舞的一切,\n如今已蒙上漆黑的阴影,\n野蛮人的手亵渎了圣洁光明。\n巍巍格拉亚山的崇高诗人,\n曾满怀激情把那一切歌颂,\n激越的歌声使那一切永不磨灭,\n诗人自己也沉浸在幸福欢乐之中。\n高贵的狄摩西尼热情奔放,\n曾把那一切滔滔宣讲,\n面对人山人海的广场,\n演讲者大胆嘲讽高傲的菲力浦国王。\n那一切就是崇高和美,\n那一切笼罩着缪斯的神圣光辉,\n那一切使缪斯的子孙激动陶醉,\n如今却被野蛮人无情地摧毁。\n这时查理大帝挥动崇高魔杖,\n呼唤缪斯重见天光;\n他使美离开了幽深的墓穴,\n他让一切艺术重放光芒。\n他改变陈规陋习,\n他发挥教育的神奇力量;\n民众得以安居乐业,\n因为可靠的法律成了安全的保障。\n他进行过多次战争,\n杀得尸横遍野血染疆场;\n他雄才大略英勇顽强,\n但辉煌的胜利中也隐含祸殃;\n他为善良的人类赢得美丽花冠,\n这花冠比一切战功都更有分量;\n他战胜了那个时代的蒙昧,\n这就是他获得的崇高奖赏。\n在无穷无尽的世界历史上,\n他将永远不会被人遗忘,\n历史将为他编织一顶桂冠,\n这桂冠决不会淹没于时代的激浪。\n卡尔·马克思于1833年\n#### 莱茵河女神\n**叙事诗**\n(见本卷第885—889页)\n#### 盲女\n**叙事诗**\n(见本卷第852—858页)\n#### 两重天\n**乘马车赴柏林途中**\n(见本卷第475—478页)\n#### 父亲诞辰献诗。1836年\n**(见本卷第845—846页)**\n#### 席勒\n**十四行诗两首**\n(见本卷第846—847页)\n#### 歌德\n**十四行诗两首**\n(见本卷第848—849页)\n#### 女儿\n**叙事诗**\n(见本卷第838—841页)\n#### 凄惨的女郎\n**叙事诗**\n(见本卷第533—537页)\n卡·马克思写于1833年一大约1837年\n第一次用原文发表于《马克思恩格斯全集》1975年历史考证版第1部分第1卷\n并用俄文发表于《马克思恩格斯全集》1975年莫斯科版第40卷\n原文是德文\n中文根据《马克思恩格斯全集》1975年历史考证版第1部分第1卷翻译\n---\n**注释:**\n[222]马克思的这些诗作是他的姐姐索菲娅抄录在一个笔记本里的。除了马克思的诗作外,笔记本里还有其他人的诗作以及索菲娅自己和她的亲友的个人记事。马克思的这些诗作,除了《人生》和《查理大帝》外都在马克思的几本诗集和索菲娅的纪念册里出现过。《查理大帝》一诗注明写作日期是1833年,可见马克思早在中学时代就已开始写诗了。《盲女》注明写作日期是1835年。为祝贺父亲生日而献给亨利希·马克思的诗作的写作日期应该不晚于1836年初。——913。"
}

● 字段
id: 【字符串类型】文档的唯一ID。
content: 【字符串类型】文档的内容,格式为普通Text格式或Markdown格式。

三、书生·万卷 图文数据集 1.0

书生·万卷图文数据集1.0 数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过200GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。数据均为统一的jsonl格式,其中图片以url的形式给出,若需获取图片数据,可以采用以下脚本:
https://github.com/opendatalab/image-downloader

● 组成

● 样例

{
    "id": "BkKuk1zxK3YAbgNSWYik",
    "img_list": [
        {
            "url": "http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/images/2021-01/21/02/1007771_wangjj_1611154300505_b.jpg",
            "sha256": "019cca88f37ae5ffe59ad48ad5c392fe64e489f08e841b6ea50c79c18f5c6ec3",
            "caption": "",
            "width": "400",
            "height": "266"
        }
    ],
    "content": "![](https://img-blog.csdnimg.cn/img_convert/a1de51382e5b07bf42c6dc3861958bbd.jpeg)\n奋斗百年路 启航新征程\n走进觉悟社当年社员开会的房间,桌子中间摆放的一盘纸条格外引人注目,周恩来“伍豪”和邓颖超“逸豪”的笔名就诞生于此。\n“为了斗争的需要,觉悟社社员们采取抓阄的办法,以号取名。”1月19日,天津觉悟社纪念馆助理馆员迟爱民讲述了102年前的情景:当时年纪最小的邓颖超抓到了最小数字1号,所以叫“逸豪”。周恩来抓到5号,就取名“伍豪”。\n时间回到1919年那个思潮澎湃的年代。在天津,以周恩来为代表的一批以天下为己任的先进分子,在众多新思潮中艰难地探索革命真理。通过觉悟社的锻炼和洗礼,其主要成员成长为我国早期的共产主义者。周恩来也在这个时期成为马克思主义的宣传者。\n诞生:冲破封建束缚探索革命真理\n觉悟社成立于“五四运动”在天津发展到最高潮的阶段。\n觉悟社纪念馆中的一张合影,记录下了这一张张充满青春朝气的脸庞。他们神色凝重,目光坚定,这些人就是觉悟社成立之初的部分社员。\n“这个比一般学生爱国团体更加严密的组织的成立,源于之前一次赴京请愿斗争。”迟爱民介绍,1919年9月2日,周恩来等天津各界联合会、学生联合会、女界爱国同志会的先进青年在返津途中,经过交流,一致认为,应该成立一个研究新思潮,探索革命真理,冲破封建习俗束缚,由男女同学共同组建的团体。\n1919年9月16日,在天津东南角草场庵天津学生联合会办公室里,革命青年团体觉悟社诞生了。出席成立会的男女各10名成员成为最初的社员,包括周恩来、邓颖超、马骏、刘清扬、郭隆真等。\n周恩来执笔起草了《觉悟的宣言》。觉悟社成立后,以“革心”和“革新”的精神组织演讲,出版刊物《觉悟》,探讨研究新思潮,很快就成为天津学生爱国运动的中坚力量。\n引领:觉悟社成立5天后李大钊应邀前来\n在波澜起伏的斗争中,周恩来和觉悟社社员们迫切感到,要用先进思想武装头脑。\n觉悟社社员谌小岑曾回忆道,在觉悟社成立后第5天,我国最早的马克思主义者、中国共产党先驱李大钊就应邀到觉悟社座谈。李大钊听完邓颖超对觉悟社的介绍后,对觉悟社深表赞许,他表示“觉悟社是男女平等、社交公开的先行”。\n在李大钊的启发下,觉悟社成员阅读了李大钊发表在《新青年》上的《庶民的胜利》《布尔什维主义的胜利》《我的马克思主义观》等文章。还邀请徐谦、包世杰、钱玄同、刘半农等来演讲,并召开讨论会。\n天津市委党校文史教研部副主任徐娜表示,觉悟社社员们学习、讨论中国最早的马列主义文献,并积极投身实践斗争,为他们选择信仰马克思主义、走上共产主义道路进行了最初的启蒙与引导。\n影响:觉悟社多人加入中国共产党\n1920年1月29日,在抵制日货的斗争中,周恩来、马骏等人被捕,成立仅4个月的觉悟社受到沉重打击。纪念馆展厅中的两本书《警厅拘留记》和《检厅日录》,记录了青年们斗争的艰难和残酷。身陷囹圄的周恩来先后用6个晚上,向狱友介绍马克思主义学说。出狱后,编写了3.5万字的《警厅拘留记》和《检厅日录》。在后来旅法期间,周恩来说“我的思想是颤动于狱中”,可以说这是周恩来马克思主义世界观形成的重要时期。\n1920年11月,随着周恩来、刘清扬、郭隆真等人赴法国勤工俭学,觉悟社的社员们开始星散,觉悟社的集体活动停止……\n觉悟社存在的时间虽然不长,但为一批年轻人树立马克思主义信仰奠定了坚实基础。徐娜表示,觉悟社作为“五四”运动爆发之后在天津影响最广泛、作用最突出的进步学生组织,其表现出的反对封建主义、憎恨一切剥削和压迫的进步思想,为接受马克思主义作好了准备。随后,远赴欧洲勤工俭学的周恩来加入中国共产党八个发起组之一的巴黎共产主义小组,成为中国共产党创建人之一,而其他的觉悟社主要社员如马骏、邓颖超、郭隆真等都加入了中国共产党,成为革命的骨干力量。"
}

● 字段
id: 【字符串类型】文档的唯一ID。
img_list:【数组类型】,文档内包含的图片列表。每张图片的信息包括网络url, url的sha256, 长度和宽度。
content: 【字符串类型】文档的内容,格式为普通Text格式或Markdown格式。

四、书生·万卷 视频数据集 1.0

书生·万卷视频数据集1.0 主要来自中央广播电视总台和上海文广集团,包含多种类型的节目影像,视频文件数超过1000个,数据大小超过900GB。内容覆盖军事、文艺、体育、自然、真实世界、知识类、影像艺术、媒体、美食、历史纪录片、科教类等方面。

● 组成

● 样例

五、数据集限制

书生·万卷1.0整体采用 CC BY 4.0 许可协议。您可以自由共享、改编该数据集,唯需遵循以下条件:

● 署名:您必须适当地标明作者、提供指向本协议的链接,以及指明是否(对原始数据集)做了修改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人同意您或您的使用。

● 没有附加限制:您不得使用法律条款或技术措施来限制他人执行许可证允许的任何操作。

完整协议内容,请访问CC BY 4.0协议全文。

特别注意事项

请注意,本数据集的某些子集可能受制于其他协议规定。在使用特定子集之前,请务必仔细阅读相关协议,确保合规使用。更为详细的协议信息,请在特定子集的相关文档或元数据中查看。

OpenDataLab作为非盈利机构,倡导和谐友好的开源交流环境,若在开源数据集内发现有侵犯您合法权益的内容,可发送邮件至(OpenDataLab@pjlab.org.cn),邮件中请写明侵权相关事实的详细描述并向我们提供相关的权属证明资料。我们将于3个工作日内启动调查处理机制,并采取必要的措施进行处置(如下架相关数据)。但您应确保您投诉的真实性,否则采取措施后所产生的不利后果应由您独立承担。

引文

@misc{he2023wanjuan,
      title={WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models}, 
      author={Conghui He and Zhenjiang Jin and Chao Xu and Jiantao Qiu and Bin Wang and Wei Li and Hang Yan and Jiaqi Wang and Dahua Lin},
      year={2023},
      eprint={2308.10755},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

查看““书生·万卷” 1.0 数据集:https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0

<think>好的,我现在需要帮助用户理解空洞选择性扫描与Mamba块之间的关系。用户之前询问了空洞选择性扫描与传统卷积的区别,现在想知道空洞选择性扫描是否与Mamba块相关。根据用户提供的引用资料,我需要结合这些信息来构建回答。 首先,用户提供的引用[1]提到了Mamba块和各种视觉Mamba块,如Vim、VSS、EVSS等,这些块使用了扫描技术和选择性SSM变换。引用[2]则讨论了Mamba块的架构,其中包含了状态空间模型(SSM)。用户的问题是关于空洞选择性扫描与Mamba块的关系,所以我需要确定这两者是如何联系的。 根据之前的回答,空洞选择性扫描结合了空洞采样和动态扫描,可能用于扩展感受野。而Mamba块的核心在于选择性状态空间模型(SSM),它通过动态参数调整来处理长序列数据。接下来需要分析这两者是否有交集,比如Mamba块是否采用了空洞选择性扫描的技术,或者是否在某些视觉Mamba块中应用了这种扫描方式。 引用[1]中提到不同的视觉Mamba块使用了扫描技术,可能包括空洞选择性扫描。例如,EfficientVMamba(EVSS)可能通过跳跃采样来优化计算效率,这可能涉及到空洞采样。此外,动态选择性扫描在Mamba块中的作用是筛选重要区域,这可能与空洞选择性扫描的动态特性相关。 需要进一步确认Mamba块中的扫描技术是否包含空洞采样的机制。例如,空洞率(dilation rate)是否被用于扩大感受野,或者是否在扫描过程中采用稀疏采样。引用中提到Mamba块通过SSM处理序列数据,而选择性扫描可能调整扫描路径,这可能结合了空洞采样的思想,从而形成空洞选择性扫描。 另外,引用[2]中的图1显示Mamba块在门控卷积基础上加入了SSM,而SSM的动态参数可能影响扫描方式。如果这种动态参数调整包括调整采样间隔(即空洞率),那么空洞选择性扫描可能就是Mamba块中的一部分。 总结来说,空洞选择性扫描可能是Mamba块中扫描技术的一种实现方式,特别是在视觉任务中,用于扩展感受野并动态选择重要区域。需要结合用户提供的引用和之前的回答中的信息,说明两者的关联,并举例具体模型如EVSS如何应用这种技术。</think>#### 空洞选择性扫描与 Mamba 块的关系 --- ### **1. 核心关联性** 空洞选择性扫描与 Mamba 块的关键联系在于**动态长距离建模能力**的增强。 - **Mamba 块的核心**:基于选择性状态空间模型(Selective State Space Model, SSM),通过动态调整参数(如门控机制)捕捉输入序列的全局依赖关系[^1][^2]。 - **空洞选择性扫描的作用**:在视觉任务中,通过**跳跃采样(空洞率)**扩大感受野,同时结合**动态路径选择**聚焦关键区域,解决传统卷积局部性限制与密集计算问题[^4]。 在视觉 Mamba 变体(如 EfficientVMamba、Vim 等)中,空洞选择性扫描常被集成到**扫描路径设计**中,形成以下技术融合: $$ \text{建模能力} = \underbrace{\text{SSM 动态参数}}_{\text{Mamba 核心}} + \underbrace{\text{空洞采样+路径筛选}}_{\text{空洞选择性扫描}} $$ --- ### **2. 具体技术结合方式** #### **(1) 动态空洞率分配** Mamba 块中的**选择性机制**(如门控单元)可控制空洞率: - **输入自适应**:根据特征图内容动态调整不同区域的空洞率(例如,高频细节区域使用小空洞率,平滑区域使用大空洞率)[^1]。 - **公式化表示**: $$ d(x) = \sigma(W_d \cdot x) \times d_{\text{max}} $$ 其中$d_{\text{max}}$为预设最大空洞率,$W_d$为学习参数,$\sigma$为激活函数。 #### **(2) 稀疏路径选择** 在扫描过程中,Mamba 块通过**动态剪枝**跳过冗余区域: - **计算效率提升**:例如 EfficientVMamba 将序列长度压缩至$1/4$,FLOPs 减少约 30%[^2]。 - **硬件友好性**:稀疏扫描模式更适合 GPU/TPU 的并行计算特性[^4]。 #### **(3) 跨层感受野融合** 通过堆叠 Mamba 块实现**空洞率指数增长**: - **单层空洞率**:$d=2^k$($k$为层数) - **总感受野**: $$ RF = \sum_{i=1}^n (k_i - 1) \times d_i + 1 $$ 例如,3 层空洞率$d=2,4,8$时,感受野可达$1 + 2 \times 2 + 2 \times 4 + 2 \times 8 = 33$。 --- ### **3. 典型应用案例** | **模型** | **技术融合方式** | **性能提升** | |---------------------|--------------------------------------------------------------------------------|------------------------------------------| | **EfficientVMamba** | 空洞选择性扫描 + 通道分组 SSM,输入序列压缩比达 1:4[^2] | ImageNet 分类 Top-1 准确率 82.1%(↑1.3%) | | **PlainMamba** | 固定空洞率$d=2$的均匀扫描,平衡感受野与计算成本[^1] | COCO 检测 AP 45.6(较 CNN 高 2.1| | **LocalMamba** | 局部窗口(如 7×7)内动态调整空洞率,避免全局扫描的过度稀疏化[^1] | ADE20K 分割 mIoU 52.3(↑3.8) | --- ### **4. 与传统卷积的协同** Mamba 块常与卷积层联合使用,形成**混合架构**: - **浅层特征提取**:使用传统卷积(如 3×3 卷积)保证局部细节捕捉稳定性[^3]。 - **深层特征建模**:换用 Mamba 块 + 空洞选择性扫描,扩展感受野并减少计算量[^4]。 - **典型结构示例**: ```python class HybridBlock(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(in_c, out_c, kernel=3) # 局部特征提取 self.mamba = MambaBlock(dilation_rate=2) # 空洞选择性扫描 def forward(self, x): x = self.conv(x) x = self.mamba(x) # 动态长距离建模 return x ``` --- ### **总结** 空洞选择性扫描是**增强 Mamba 块视觉建模能力的关键技术**,二者通过以下方式深度耦合: 1. **动态参数共享**:SSM 的门控机制控制空洞率与路径选择 2. **效率-精度平衡**:稀疏扫描降低计算量,同时保持大感受野 3. **任务适应性**:在分割、检测等需高分辨率输出的任务中表现突出[^1][^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值