- 博客(7)
- 收藏
- 关注
原创 数据收集魔法:获取顶级训练数据的方法
本文是DataTager团队关于大模型数据的系列文章十万字总结《从数据到AGI:开启大模型智能的秘密》中的数据收集部分,以下是本文的同步链接:ChatGPT诞生一年多后的今天,人们逐渐理解了大模型的运行逻辑,并在积极探索其落地场景。我们始终坚信大模型是一个以数据为中心的领域(data-centric),而不是以模型为中心(model-centric)。因此,在大模型时代的探索中,我们积累了大量关于数据的经验和思考,并将这些经验汇集成系列文章《从数据到AGI:开启大模型智能的秘密》。
2024-07-08 22:38:25
1690
原创 还搞不定实际业务场景的大模型训练吗?我们开源了这份多领域的Task数据集
From Data to AGI,数据是不可或缺的燃料。我们坚信对个人和组织来说,过度追求通用能力更强的基础大模型是没有意义的,只有结合自己的场景做出一系列的子任务数据集,进行Task Fine Tune才能更好地落地LLM。为了让更多从业者意识到任务级别的数据集的重要性,我们在医疗、金融、心理、电商等多个关键领域,设计了适应不同业务需求的十余种子任务并全部开源,可以选择使用这些数据集来训练模型,让模型特定地具备这方面的能力。
2024-07-08 22:37:54
415
原创 如何租房、谈薪、签offer?你想了解的都在这里
这篇文章是我几年前大规模实习的时候(应该是2021年左右)为一些私域朋友们写的租房和求职指南。虽然已经过去几年,但市场情况并没有太大变化,所以依然具有参考价值。最近团队里有小伙伴遇到了类似的问题,所以我重新整理了一下发出来。PS:本文主要面向即将毕业或刚开始实习的学生群体,已经有丰富社会经验的朋友们可能不需要太过关注。
2024-07-08 22:37:05
730
原创 arXiv实用技巧,如何让你的paper关注度变高?
接触了一段时间科研圈,发现这个领域有点过于封闭了,像是古代拜山头一样,技巧和经验只在同门内流通,感觉有点奇怪,所以尝试科普一些东西,比如怎么让你的paper更容易被KOL捕捉
2024-07-08 22:36:32
930
原创 Latex下划线问题
比如碰到:test_eg时,可以用test/_eg来解决,但很丑,tex的官网有类似c语言的宏定义来解决这个问题:https://texfaq.org/FAQ-underscore
2022-01-02 02:31:53
2006
原创 python关于requirements.txt、换源
python关于requirements.txt、换源生成requirements.txt文件:虚拟环境下:pip freeze > requirements.txt,因为会把所有依赖都加入全局环境下:使用pipreqspip install pipreqspipreqs . --encoding=utf8 --force安装requirements.txt依赖:pip install -r requirements.txt (-i https://pypi.tuna.
2021-05-04 14:16:21
4837
原创 解决腾讯云重置之后ssh连接失败问题
解决腾讯云重置之后ssh连接失败问题解决腾讯云重置之后ssh连接失败问题1. 客户端的问题2. 服务端的问题解决腾讯云重置之后ssh连接失败问题服务端版本:腾讯云CentOS7.6客户端版本:Mac Catalina之前觉得服务器东西太乱了配的有点乱所以重置了一下,本机再连接的话就报以下的错误:The authenticity of host ‘IP (IP)’ can’t be established.ECDSA key fingerprint is SHA256:LMYM3tQ
2021-05-01 16:21:24
4488
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅