自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 大型Dataframe行遍历

这段代码展示了如何使用pandas的itertuples()方法遍历DataFrame。通过设置index=False参数,可以避免包含索引列。在循环中,通过row.Name和row.Age可以访问每一行的字段值。这种方法比iterrows()更高效,适合处理大数据集。摘要简要说明了代码功能和关键参数的作用。

2025-10-05 11:48:26 124

原创 解决DataFrame行数据输出截断问题

修改Pandas显示设置可解决长文本截断问题。通过设置pd.set_option('display.max_colwidth',None)取消列宽限制,确保完整显示长文本内容。这个简单的配置调整能有效解决数据查看时被截断的困扰。

2025-10-04 14:39:00 124

原创 nlp分词方法

摘要:三种主流分词方法对比:BPE基于子词频率贪心匹配,对低频词捕捉弱;WordPiece加入概率增益仍保留高频低语义词;Unigram通过概率收敛优选高语义词但训练成本高。单语言场景推荐Unigram,多语言WordPiece更优。各方法在语义捕捉、计算效率上呈现不同权衡。

2025-07-05 11:20:23 220

原创 python绘制折线图

本文展示了使用Python的Matplotlib库绘制折线图的基本方法。代码示例创建了一个展示素数数据的折线图,包含标题、轴标签、图例和网格线等元素。重点介绍了plot()函数的关键参数:label(图例)、color(颜色)、marker(标记样式)和linestyle(线条样式)。此外,还说明了如何添加grid网格线并设置其透明度。该示例为数据可视化提供了简洁实用的入门指导,适合初学者快速掌握Matplotlib的基本绘图功能。

2025-06-25 09:52:27 176

原创 SentencePiece学习

SentencePiece是一种语言无关的子词切分工具,支持所有语言的文本处理。它主要使用txt文件输入,推荐直接使用训练好的模型而非生成词典。示例展示了如何训练BPE模型并实现文本到索引的转换:首先准备语料文件,设置训练参数(模型类型、词汇表大小等),然后加载模型进行编码,并提供批量转换函数将文本转为填充后的索引矩阵。实际应用中,Unigram算法比BPE更推荐使用。该方法适用于各类NLP任务,为深度学习模型提供数值化输入。

2025-06-09 17:52:15 180

原创 显卡对于模型训练的影响

显卡显存大小决定可训练模型规模,而TFLOPs影响训练速度。多卡并行只能加速训练,无法突破单卡显存对模型规模的限制。不同计算精度(如FP16/FP32)会影响实际TFLOPs数值和显存利用率。

2025-06-05 15:12:43 252

原创 T5论文精读

本文探讨迁移学习方法,分析了不同迁移学习方法的影响因素。

2025-05-31 15:16:18 410

原创 ValueError: Unrecognized configuration class <class ‘transformers.models.bert.configuration_bert.Ber

原因:有可能是代码写错了,模型配置代码较长而且前面开头重复较高,可以检查一下有没写错。问题:模型配置不匹配。

2024-10-29 18:36:17 793

原创 安装transformer

pip install transformers datasets evaluate peft accelerate gradio optimum sentencepiece

2024-10-27 22:15:54 235

原创 conda查看当前源,恢复默认源,添加阿里源

【代码】conda查看当前源,恢复默认源,添加阿里源。

2024-08-20 10:37:34 2840

原创 pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 694, saw 2

read_csv默认分隔符为逗号,可能是文本中含逗号导致错误。

2024-08-18 11:34:15 857

原创 cv2.imread()报错

原因:路径包含中文。

2024-08-17 22:21:02 302

原创 graphviz.backend.execute.ExecutableNotFound: failed to execute WindowsPath(‘dot‘), make sure the Gra

如果勾选自动添加环境变量安装不成功有可能是环境变量有冲突,删除多余环境变量即可,注意用户变量和系统环境变量要匹配。

2024-08-17 21:52:06 350

原创 ValueError:only one element tensors can be converted to Python scalars

list转tensor时list里面有tensor。

2024-08-17 19:41:04 126

原创 pip和conda的区别

在conda环境或者是virtualenv中没有区别。

2024-08-15 16:50:37 645

原创 查看pytorch版本

【代码】查看pytorch版本。

2024-08-14 15:43:58 358

原创 pytorch官网链接

PyTorch

2024-08-12 21:30:27 230

原创 conda常用指令

【代码】conda常用指令。

2024-08-12 21:28:48 297

原创 1:解决RuntimeError: Numpy is not available

安装tensorflow。

2024-08-07 15:25:24 391

原创 1:anaconda安装

1.下载安装包2.安装选项。

2024-08-01 22:06:56 257

原创 TypeError: TruncatedSVD.__init__() got an unexpected keyword argument ‘n_iters‘

解决方法:把n_iters改为n_iter。

2024-07-12 16:10:29 337

原创 from datasets import load_dataset 报错 AttributeError: readonly attribute

解决方法:更新datasets。

2024-07-12 11:16:27 717

原创 报错:cannot import name triu from scipy.linalg (xxx)

解决方法:降低scipy版本为1.10.1。

2024-07-12 11:11:54 978

原创 pytorch深度学习入门与实战3:张量操作之获取元素

pytorch深度学习入门与实战

2024-06-14 10:25:54 456

原创 pytorch深度学习入门与实战3:张量操作

pytorch深度学习入门

2024-06-14 09:25:49 427 1

原创 在使用pip安装pytorch时报错无法卸载TBB

解决方法:python版本过旧,更新python版本即可。

2024-06-09 11:55:02 708

原创 2:安装pycharm(解决pycharm配置anaconda环境时找不到python.exe文件)

解决方法:重新安装旧版pycharm,目前测试2022.2.5可以,2023.2.4和2023.1.4不行。原因:pycharm版本过新。附上pycharm下载官网。

2024-06-04 22:52:02 1210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除