u013250861
这个作者很懒,什么都没留下…
展开
-
开源中文DeepSeek-R1(满血)蒸馏数据集-110K
其实数据蒸馏之前就常用,之前蒸馏GPT4,现在改成蒸馏DeepSeek-R1了。DS就像是一条鲇鱼,搅浑了开源和闭源这摊死水,前两天百度先宣布免费,再宣布开源。OpenAI同时也是坐不住了,先开发o1的思维链(总结版),后面也不挤牙膏了,说马上来GPT4.5和GPT5。Grok3明天也来了,所以开源越来越好啦~~开的这个数据集会有些不完善的地方,毕竟没搞那么久,但希望大家不喜勿喷!原创 2025-03-11 00:41:43 · 133 阅读 · 0 评论 -
【论文解读】Zephyr:无需人类标注,只使用AI偏好数据进行蒸馏式偏好对齐
看到Huggingface的一套,是个不错的学习材料,按图索骥追溯一下相关的论文。从而间接地与人类偏好对齐。原创 2025-02-25 09:05:56 · 91 阅读 · 0 评论 -
MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集
通过以上分析,可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集,尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越,为未来的多模态研究提供了坚实的基础和丰富的资源。MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集。原创 2025-02-12 12:19:40 · 90 阅读 · 0 评论 -
【LLM Pretrain data】DCLM
我们引入了用于语言模型的DataComp (DCLM),这是一个用于受控数据集实验的测试平台,旨在提升语言模型的性能。作为DCLM的一部分,我们提供了从Common Crawl中提取的240T tokens的标准化语料库,基于OpenLM框架的有效预训练方案,以及一个包含53项下游评估的广泛测试套件。参与DCLM基准测试的研究人员可以在模型规模从412M到7B参数的范围内,进行诸如去重、过滤和数据混合等数据整理策略的实验。作为DCLM的基线,我们进行了大量实验,原创 2025-02-12 12:15:39 · 59 阅读 · 0 评论 -
PDF文档解析(OCR):Nougat
这里,研究人员使用Swin Transformer Swin,可将图像分割成固定大小的非重叠窗口,并应用一系列自注意力层来聚合这些窗口的信息。具体来说,Nougat是一个编码器-解码器的Transformer架构,允许端到端的训练,主要建立在Donut架构之上。Meta团队表示,Nougat是将PDF研究论文转换为结构化的机器可读文本,从而改善科学知识获取的一种有前途的解决方案。公式和表格的性能较低,略高于75%,但仍然比GROBID等替代品可靠得多,后者的数学公式准确率略低于11%。原创 2025-02-09 17:25:27 · 190 阅读 · 0 评论 -
【解读大模型(LLM)的token】
tokenization可以帮助模型处理不同的语言、词汇表和格式,并降低计算和内存成本,还可以通过影响token的意义和语境来影响所生成文本的质量和多样性。未来的进步可能集中于解决tokenization的局限性,改进 OOV 处理,并适应新兴语言和文本格式的需要。一般地,token可以被看作是单词的片段,不会精确地从单词的开始或结束处分割,可以包括尾随空格以及子单词,甚至更大的语言单位。随着继续探索token的世界,我们将彻底改变机器理解和生成文本的方式,推动自然语言处理的边界,促进各个领域的创新应用。原创 2025-02-09 17:17:57 · 98 阅读 · 0 评论 -
PDF文档解析(OCR):CnSTD
之前的版本,定位都是做文字检测,新版加入了,简称)和)模型,并提供预训练好的模型可直接使用。这两个模型底层架构用的都是YOLOv7的tiny模型,速度还是挺快的,但效果上并不算出众。CnSTD V1.2.1其实是为了我另一个开源工具的新版定制的。旧的P2T只能识别要么是文字,要么是数学公式的图片。我们会争取尽快把开源出来。P2T是个,对于不熟悉Python的朋友还是太不友好,我们近期也会提供,直接把图片丢进网页就能输出P2T的解析结果。网页版会提供一些免费名额供有需要的朋友使用,优先在校的学生(原创 2025-02-09 16:44:20 · 66 阅读 · 0 评论 -
PDF文档解析(OCR):GROBID
GROBID,意为GeneRationOfBIData(文献元数据生成),是一个高度先进的机器学习库。自2008年起源于一个简单的想法,在Inria的持续支持下,它已成长为科学和技术出版物领域不可或缺的工具,尤其擅长从PDF文档中提取并结构化文献信息。该项目开源以来,不断进化,提供了Web服务API、Docker容器等多种部署方式,被ResearchGate、Semantic Scholar等众多知名平台采用。转载 2025-02-09 16:40:17 · 152 阅读 · 0 评论 -
数据清洗-工具箱:Data-Juicer(为大模型提供更高质量、更丰富、更易“消化”的数据)
Data-Juicer 是一个一站式数据处理系统,旨在为大语言模型 (LLM) 提供更高质量、更丰富、更易“消化”的数据。我们提供了一个基于 JupyterLab 的,您可以从浏览器中在线试用 Data-Juicer。如果Data-Juicer对您的研发有帮助,请引用我们的。已引用我们的工作,将Data-Juicer的能力集成到PAI的数据处理产品中。原创 2024-12-12 19:40:07 · 744 阅读 · 0 评论 -
Library Genesis (创世纪图书馆)最新镜像地址,可直接访问!不逊于 Z-Library 的优质电子书库
然而,需要注意的是,Library Genesis并不是其托管的材料的官方出版商或分销商。Library Genesis (创世纪图书馆)是一款国外电子书资源库,可下载学术期刊文章、学术书籍,以及人文社科的书籍。该网站提供各种材料,包括同行评审的期刊文章、会议论文、学位论文、论文、教科书等。原创 2024-12-09 02:25:39 · 3589 阅读 · 0 评论 -
为创世纪图书馆(Library Genesis)作镜像
转载于:https://my.oschina.net/u/139883/blog/1800175。原创 2024-12-09 02:24:55 · 578 阅读 · 0 评论 -
Pirate Library Mirror 盗版图书馆镜像项目放出 31TB 数据
元数据包含由 Z-Library 网站汇总的数据,包括电子书的标题、作者、描述、文件类型、文件大小、MD5 值,以及 Pirate Library Mirror 额外提供的一些数据,包括实际文件大小和实际 MD5 值、是否在 Library Genesis 中、对应的种子文件、是否无法下载。另外,Pirate Library Mirror 并未在其域名为 pilimi.org 的主页上给出镜像种子的下载链接,如果想要获取这些镜像种子文件,需要通过 Tor 网络访问其提供的后缀为 .onion 的域名。原创 2024-12-09 02:23:34 · 131 阅读 · 0 评论 -
探索开源:获取完整的 GitHub 社区数据集
分析 GitHub 上的项目和开发者获取是深入、真实的了解开源世界演进的方法之一。在GHArchive项目中,我们能够看到目前全球有至少二十~三十个基于 GitHub 进行分析的开源项目,它们基于不同的维度、提供了不同的功能,甚至有一些项目因为年代久远,已经下线成为了“互联网活化石”的一部分。如果你感兴趣,可以翻阅文末“其他”小节,了解这部分的内容。原创 2024-12-07 05:28:49 · 376 阅读 · 0 评论 -
开源代码数据集整理
训练大规模语言模型时,代码的数据也十分重要,可以让模型学会如何生成代码。下面整理了一些可以用来训练大语言模型的开源数据集。原创 2024-12-07 05:22:44 · 374 阅读 · 0 评论 -
NLP 中的Tokenizer:BPE、BBPE、WordPiece、UniLM 理论
总的来说,BBPE效果与BPE相当,从发明时即为了解决中文、日本编码词表过大的问题,因此在多语言编码上天然具有词表小的优势,但同时导致每种语言不一定是长度最优的编码方式,必然从长度上会增加推理计算的开销。另外UTF-8编码可以在不同语言之间字节编码可能具有一定互通性,可以实现即使字符集不重叠,也可以通过子节层面的共享来实现良好的迁移。有利于模型翻译能力提升。原创 2024-11-19 22:56:28 · 235 阅读 · 0 评论 -
LLM实践--数据去重:Simhash&Minhash 原理分析&代码实现
数据处理是LLM pretrain的核心环节,去重又是数据处理的重要组成部分,这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么,而仅仅是了解什么,所以回答和文章大多都会附上代码,这篇也是一样。这个系列的文章估计废话会比较多。顾名思义,文档粒度就是以文档为单位,删除重复文档。这种做法最为普遍,主要是为了删除完全重复或几乎一致的文档,这种文档一般来自于相同文档的不同源发布转载、重复爬取等。原创 2024-11-19 22:45:49 · 271 阅读 · 0 评论 -
LLM实践--Tokenizer训练
再说合成路径,如果我的词表是 「乌」「鲁」「木」「齐」「乌鲁」「木齐」,后来扩增了词表,增加了「乌鲁」+「木」=「乌鲁木」,和「乌鲁木」+「齐」=「乌鲁木齐」两个token,「乌鲁木齐」这个token是合成不出来的,因为「木齐」在「乌鲁木」之前,所以优先合成「木齐」,而不是「乌鲁木」,那么没有「乌鲁木」,自然无法合成「乌鲁木齐」。按照之前的原则,取次数最多且更靠前的“潮潮潮”加入词表,此时词表大小为12,训练停止,我们已经得到了大小为12,在“海水潮潮潮潮潮潮落,浮云长长长长长长长消”上训练的分词器。原创 2024-11-19 22:36:54 · 189 阅读 · 0 评论 -
手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型(实现中文token过程)
算法选择bpe,split_digits为True,byte_fallback为True,和LLaMa 保持一致,max_sentence_length设置的大一点,更多参数解释可以查看:https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。可以看到,因为训练语料几乎都是中文的,对中文的分词效果是好于英文的,中文常见的一些词都变成了一个token,而英文被分的很碎。可以看到在英文上是没有变化的。原创 2024-11-19 15:29:48 · 174 阅读 · 0 评论 -
面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验
导读 本文将分享⾯向⼤规模向量数据的云原⽣存储解决⽅案。文中将介绍 Milvus 向量数据库的存储、索引、查询等功能,以及向量数据库的典型应用场景和存储解决方案。接下来的分享将围绕下面五点展开:1. 关于 Zilliz2. 向量数据库3. 典型用例4. 存储解决方案5. 总结分享嘉宾|徐冬 Zilliz 首席工程师编辑整理|华永奎内容校对|李瑶出品社区|DataFun01关于 Zilliz在正文开始前,先来简单介绍一下 Zilliz 公司。作为全球向量数据库技术的开创者,Zilliz 在开源社区中的贡献和影原创 2024-10-08 04:19:36 · 475 阅读 · 0 评论 -
SIFT-1B-十亿规模向量检索数据集下载【bigann_base.bvecs.gz】
最近做的工作和大规模向量检索有关,在做实验时用到经典的PQ-based ANNS论文中提到的十亿规模数据集,该数据集BIGANN提供了不同的的检索数据集,从10K到1B,有SIFT和GIST两种不同的表示方法。特别地,网站提供了ANN_SIFT1B的数据集,其中 Base set 是检索库,有 10 亿个 128 维的向量;Learning set 学习集用来学习k-聚类参数k值;Query set 是 10M个 128 维的查询集;Ground truth 用于评判质量的真实值。原创 2024-10-08 03:11:50 · 898 阅读 · 0 评论 -
aria2安装和使用(Ubuntu 20/Win 10)- 多源多连接可断点续传下载工具
http协议可以在request head指定range, 也就是可以将文件分片下载,可以用下面的命令测试http服务器是否支持range,这个命令指定下载文件的第3和4个字节(字节从0开始编号),保存到r3文件。原创 2024-08-05 20:17:45 · 462 阅读 · 0 评论 -
如何快速下载huggingface模型——全方法总结
以上,我们介绍了浏览器、多线程工具、git clone、huggingface-cli、hf_transfer、python方法、hfd脚本等众多方法,各自有其适用场景,大家根据自己的操作系统的支持情况以及个人习惯来选择。默认推荐使用,对外网连接较好(丢包少)的时候,可尝试(可选)。网络连接不好,推荐先其次再对大文件用第三方、成熟的多线程下载工具,Linux 和 Mac OS 推荐hfd脚本+aria2c,Windows 推荐 IDM。原创 2024-08-05 19:54:15 · 1265 阅读 · 0 评论 -
通俗理解n-gram语言模型
通过一元语言模型计算两个句子主要区别就在于p(篮球)和p(游泳)的概率值,其余概率值都是相同的,但是就两句话而言,"我 打 篮球"这句话要比"我 打 游泳"这句话的概率值要高很多。"商品 货币"的频次就为0,当n-gram语言模型中的n越小,可统计的n元也就越丰富,一个很自然的解决方案就是利用低阶n元语法平滑到高阶n元语法。我们不希望二元语法"商品 货币"的频次突然跌倒0,因此使用一元语法"商品"和("或",不同的平滑方法可能需要不同的处理)"货币"的频次去平滑它。个参数的一元语言模型,显然模型太简单了。原创 2024-06-18 00:24:13 · 80 阅读 · 0 评论 -
大语言模型语料库相关分词器的简单理解(以Unigram模型为例)
它可以被分词为[“c”, “a”, “t”, “s”],[“ca”, “t”, “s”],[“c”, “at”, “s”],[“c”, “a”, “ts”],[“cat”, “s”]等。我们的词汇表可能包括"c", “a”, “t”, “b”, “r”, “h”, “s”, “ca”, “at”, “ba”, “ra”, “ha”, “ts”, “cat”, “bat”, “rat”, “hat”, "cats"等标记。分词[“ca”, “t”, “s”]的概率就是P(ca) * P(t) * P(s)。原创 2024-06-17 23:27:26 · 201 阅读 · 0 评论 -
从词到数:Tokenizer与Embedding串讲
和一直是LM被忽略的一部分。随着各大框架如HF的不断完善,大家对tokenization和embedding的重视程度越来越低,到现在初学者大概只能停留在调用这样的程度了。这在实践中是很危险的,比如你要调用ChatGPT的接口,但是经常发现输出被截断了,原因可能就是你输入的句子太长了。你计算句子长度是直接用空格分词,而ChatGPT是用不同的分词法(BPE分词法)。原创 2023-12-30 15:08:08 · 2051 阅读 · 0 评论 -
如何在BERT模型中添加自己的词汇(pytorch版)
但是英文不一样,英文预训练BERT(对,就是它,bert-base-uncased 和 bert-base-cased)以词为单位。新词倒是很常见,但是在中文BERT里直接就被tokenizer切成字了,因此一般没有多大的扩充词(字)表的需要。比如我这里需要添加一个原来词表里没有的词“anewword”(现造的),这时候就把[unused1]改成我们的新词“anewword”此外,在英文模型中,添加自定义词的作用不仅是增加新词或者专业领域的词汇,而且可以防止词语被自动拆成词根词缀。原创 2023-12-30 15:09:53 · 1126 阅读 · 0 评论 -
Pix2Text (P2T) 新版发布,离Mathpix又近了一大步
用户输入一张包含文字和数学公式的图片,P2T 识别出图片中的文字和数学公式的 LaTeX 表示,最终返回纯文本形式的混合识别结果。P2T V0.2 的代码,以及预训练好的模型,都已经开源,欢迎大家使用。和 Mathpix 相比,P2T V0.2 的识别准确率和识别速度都还有很大提升空间,也请大家多包容,后续我们会继续推进相关优化。如果识别结果存在问题,可以通过网页左下侧框编辑识别效果,通过右下侧框可以实时看到编辑后的效果。进行文字检测和文字识别。旧的P2T只能识别要么是文字,要么是数学公式的单类型图片。原创 2024-01-15 21:34:49 · 411 阅读 · 0 评论 -
每天一个小实例——使用pdfplumber提取pdf表格及文本,并保存到excel
Table对象提供对.cells,.rows和.bbox属性以及.extract(x_tolerance = 3, y_tolerance = 3)方法的访问。即:每一个表格为一个列表(table),每个列表的每一行数据为一个列表(row),每行数据的列表中的每个元 素为一个单元格的数据(cell)返回TableFinder类的实例,可以访问.edges,.intersections,.cells和.tables属性。③提取最大表格的文本:.extract_table(table_settings={})原创 2024-01-05 21:33:43 · 845 阅读 · 0 评论 -
PDF转换为TXT——pdfminer3k
pdfminer3k是pdfminer的Python 3接口。PDFMiner是用于从PDF文档提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据,如果PDF文档都是图片则无能为力。PDFMiner允许获取页面中文本的确切位置以及其他信息,例如字体或线条。它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(例如HTML)。解析PDF是一件非常耗时和耗内存的工作,因此,PDFMiner使用一种称作Lazy Parsing的策略,只在需要的时候采取接卸,以减少时间和内存的使用。原创 2024-01-05 21:32:13 · 477 阅读 · 0 评论 -
Grobid: 从学术文献中提取信息的机器学习软件
GROBID(或GROBID,但不是GROBID或GROBID)是指书目数据的生成。GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的发展始于2008年作为一种爱好。2011年,该工具已在开源环境中提供。从一开始,GROBID的工作就一直是一个稳定的附带项目,并有望继续下去。原创 2024-01-03 01:00:56 · 1983 阅读 · 0 评论 -
Python:多进程处理同一个文件
Python:多进程处理同一个文件。原创 2023-11-18 10:51:43 · 451 阅读 · 0 评论 -
Python:多进程处理文件
Python:多进程处理文件。原创 2023-11-18 10:50:54 · 134 阅读 · 0 评论 -
不遍历整个文件从.jsonl文件中随机抽取n条样本
不遍历整个文件从.jsonl文件中随机抽取n条样本。原创 2023-11-16 22:06:40 · 322 阅读 · 0 评论 -
Docker安装clickhouse
创建连接,选择clickhouse—输入ip+port(有账户密码的需输入对应信息)—测试连接,成功后点击确定即可。原创 2023-11-08 22:53:34 · 116 阅读 · 0 评论 -
Ubuntu中安装faiss-gpu报错分析及解决办法
首先尝试使用pip安装faiss-gpuBT = float;尝试利用conda安装找不到资源。原创 2023-11-08 22:52:28 · 971 阅读 · 0 评论 -
数据库管理工具:DBeaver安装与使用教程(超详细安装与使用教程),好用免费的数据库管理工具【类似Navicat】
DBeaver 通过 JDBC 连接到数据库,可以支持几乎所有的数据库产品,包括:MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby 等等。🏆根据自己使用的数据库类型进行选择,下载相应的驱动,用户名、密码什么的相信大家也看得懂,直接连接自己现有的数据库,可以查看自己的数据,并且快速查看ER图等非常方便,功能上肯定丰富,我就不给大家一个个的摆出来了,大家自己边学边用。原创 2023-11-06 00:03:26 · 2770 阅读 · 0 评论 -
Docker安装clickhouse
创建连接,选择clickhouse—输入ip+port(有账户密码的需输入对应信息)—测试连接,成功后点击确定即可。原创 2023-11-06 00:00:38 · 262 阅读 · 0 评论 -
Clickhouse 优点与缺点 (个人测评)
2、缺少完整的UPDATE DELETE操作, 对于工具自动生成的语句不支持,必须通过变通的方式来完成这两类操作,仅能用于批量删除或者修改数据。3、查询快,比Vertica快5倍以上,比GP快10倍以上,比HIVE快200倍以上,比MYSQL快800倍以上。3、部分技术支持待完善,支持有限的操作系统,驱动程序不够完善,市面主流工具对其支持不全。2、数据压缩空间大,减少IO,处理查询高吞吐量,每台服务器秒级数十亿行。5、开源的列存储,支持线性扩展,简单方便,高可用容错。原创 2023-11-05 23:11:50 · 885 阅读 · 0 评论 -
在训模型的时候如果遇到显存占用了,但是后面的GPU利用率不高的情况,可能是因为什么?
解决上述问题的方法包括:优化数据传输过程、增大训练批量(前提是显存允许)、选择更复杂的模型、优化同步操作、提升IO速度、升级GPU或降低模型和批量的大小等。:如果模型的计算复杂度低(比如模型较小,或者模型的运算并不复杂),那么GPU的计算能力可能没有被充分利用。:如果数据从磁盘读取到内存的速度跟不上模型的训练速度,也会使GPU在等待新的数据时空闲,从而降低利用率。:显存不足会限制网络的大小和批量大小,甚至可能导致无法运行网络,也会导致GPU利用率低。或数据加载等,也可能导致GPU等待,降低其利用率。原创 2023-11-03 23:35:59 · 2224 阅读 · 0 评论 -
Faiss入门及应用经验记录
Faiss的全称是,是FaceBook的AI团队针对大规模相似度检索问题开发的一个工具,使用C++编写,有python接口,对10亿量级的索引可以做到毫秒级检索的性能。简单来说,Faiss的工作,就是把我们自己的候选向量集封装成一个index数据库,它可以加速我们检索相似向量TopK的过程,其中有些索引还支持GPU构建,可谓是强上加强。原创 2023-11-03 23:29:40 · 223 阅读 · 0 评论