自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 BERT训练所得embedding数据存为.pt形式

这是因为我们的user_tweet_embeddings数据是numpy形式,而.pt文件储存的是tensor型。对于获得的user_tweet_embeddings数据我们想将它存为.pt形式,用于后续训练使用。上回我们成功导入了BERT预训练模型,现在要用它来对推文内容进行enbedding了,代码如下。所以需要将数据格式转换一下,再存储,代码如下。发现存成一团乱码,再从文件导入数据也失败。这时就没问题啦,再导入验证数据也都是对的。

2025-03-19 22:25:13 127

原创 调用BERT模型时报错 Numpy is not available

这里要注意的是,我用的vscode的.ipynb,原文件怎么改还是报错,但是新建一个文件,调用原来的库就能用,同样的库在原文件就报错,不知道什么问题,但至少能用。为了确保安装的numpy版本是对的,我直接把原来的numpy也卸载了。注意pip和conda都卸一遍,避免版本错误。然而升级时显示有以上报错,大致是因为安装的numba库的限制。于是尝试升级Numpy至最新版本,发现有以下报错。经过检测,发现是numpy和torch不对应。于是我尝试将numba删掉再升级numpy。

2025-03-19 17:53:00 243

原创 writelines()报错: write() argument must be str, not int

实际上,尽管writelines()可以写入list型,但却需要其中每个元素都是str型,像我上面的代码就是因为第一个元素是int型,才报错的。大家可能有疑惑,不是说writelines()可以写入List型吗,为什么还报write的错,是不是识别错误了。因此,只要在存入之前将List中的每个元素都显式转换为str型即可。在用writelines()逐行写入数据时,发现有报错。

2025-03-19 01:00:22 260

原创 处理twibot-22数据踩过的坑:两个数据集id形式不对应

最后发现users的数据集里,id内容是'u'+账号,也就是说,是个str;而tweet数据集里的author_id内容只有账号,即int,这就导致了二者完全配不上。这里要注意的是users数据我预先处理成了list形式,首行是标签,所以在for循环按行改id的时候,是从第‘1’行开始的,因为第‘0’行是标签。最后提前处理了下users的id数据,把所有的u删去,再转成Int型,终于可以用了。最近在做机器人账号检测的内容,twibot-22数据体量太大,打算先筛出一千个账号建模型。

2025-03-19 00:22:50 356 1

原创 vscode不想每次运行代码都重新加载数据怎么办

最近在尝试做机器人账号检测工作,用到了twibot-22数据这数据实在是太大了!本人又代码小白,写代码经常报错,每次遇到bug运行断掉,然后重新运行又要等好久加载数据。于是一边等数据加载,一边灵光一现,有没有什么办法可以加载一次数据后面不用反复加载了呢。

2025-03-15 22:22:46 138

原创 远程服务器获取预训练BERT模型权重

加载预训练模型时产生报错如下这是因为无法访问外网。该怎么解决呢?

2025-03-15 20:31:53 173

原创 vscode突然连不上远程服务器

vscode连接远程服务器遇到的问题

2025-03-10 15:26:17 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除