自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JessyTsui的博客

随缘记录...

  • 博客(7)
  • 收藏
  • 关注

原创 数据收集魔法:获取顶级训练数据的方法

本文是DataTager团队关于大模型数据的系列文章十万字总结《从数据到AGI:开启大模型智能的秘密》中的数据收集部分,以下是本文的同步链接:ChatGPT诞生一年多后的今天,人们逐渐理解了大模型的运行逻辑,并在积极探索其落地场景。我们始终坚信大模型是一个以数据为中心的领域(data-centric),而不是以模型为中心(model-centric)。因此,在大模型时代的探索中,我们积累了大量关于数据的经验和思考,并将这些经验汇集成系列文章《从数据到AGI:开启大模型智能的秘密》。

2024-07-08 22:38:25 1690

原创 还搞不定实际业务场景的大模型训练吗?我们开源了这份多领域的Task数据集

From Data to AGI,数据是不可或缺的燃料。我们坚信对个人和组织来说,过度追求通用能力更强的基础大模型是没有意义的,只有结合自己的场景做出一系列的子任务数据集,进行Task Fine Tune才能更好地落地LLM。为了让更多从业者意识到任务级别的数据集的重要性,我们在医疗、金融、心理、电商等多个关键领域,设计了适应不同业务需求的十余种子任务并全部开源,可以选择使用这些数据集来训练模型,让模型特定地具备这方面的能力。

2024-07-08 22:37:54 415

原创 如何租房、谈薪、签offer?你想了解的都在这里

这篇文章是我几年前大规模实习的时候(应该是2021年左右)为一些私域朋友们写的租房和求职指南。虽然已经过去几年,但市场情况并没有太大变化,所以依然具有参考价值。最近团队里有小伙伴遇到了类似的问题,所以我重新整理了一下发出来。PS:本文主要面向即将毕业或刚开始实习的学生群体,已经有丰富社会经验的朋友们可能不需要太过关注。

2024-07-08 22:37:05 730

原创 arXiv实用技巧,如何让你的paper关注度变高?

接触了一段时间科研圈,发现这个领域有点过于封闭了,像是古代拜山头一样,技巧和经验只在同门内流通,感觉有点奇怪,所以尝试科普一些东西,比如怎么让你的paper更容易被KOL捕捉

2024-07-08 22:36:32 930

原创 Latex下划线问题

比如碰到:test_eg时,可以用test/_eg来解决,但很丑,tex的官网有类似c语言的宏定义来解决这个问题:https://texfaq.org/FAQ-underscore

2022-01-02 02:31:53 2006

原创 python关于requirements.txt、换源

python关于requirements.txt、换源生成requirements.txt文件:虚拟环境下:pip freeze > requirements.txt,因为会把所有依赖都加入全局环境下:使用pipreqspip install pipreqspipreqs . --encoding=utf8 --force安装requirements.txt依赖:pip install -r requirements.txt (-i https://pypi.tuna.

2021-05-04 14:16:21 4837

原创 解决腾讯云重置之后ssh连接失败问题

解决腾讯云重置之后ssh连接失败问题解决腾讯云重置之后ssh连接失败问题1. 客户端的问题2. 服务端的问题解决腾讯云重置之后ssh连接失败问题服务端版本:腾讯云CentOS7.6客户端版本:Mac Catalina之前觉得服务器东西太乱了配的有点乱所以重置了一下,本机再连接的话就报以下的错误:The authenticity of host ‘IP (IP)’ can’t be established.ECDSA key fingerprint is SHA256:LMYM3tQ

2021-05-01 16:21:24 4488 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除