- 博客(27)
- 收藏
- 关注
原创 大型Dataframe行遍历
这段代码展示了如何使用pandas的itertuples()方法遍历DataFrame。通过设置index=False参数,可以避免包含索引列。在循环中,通过row.Name和row.Age可以访问每一行的字段值。这种方法比iterrows()更高效,适合处理大数据集。摘要简要说明了代码功能和关键参数的作用。
2025-10-05 11:48:26
124
原创 解决DataFrame行数据输出截断问题
修改Pandas显示设置可解决长文本截断问题。通过设置pd.set_option('display.max_colwidth',None)取消列宽限制,确保完整显示长文本内容。这个简单的配置调整能有效解决数据查看时被截断的困扰。
2025-10-04 14:39:00
124
原创 nlp分词方法
摘要:三种主流分词方法对比:BPE基于子词频率贪心匹配,对低频词捕捉弱;WordPiece加入概率增益仍保留高频低语义词;Unigram通过概率收敛优选高语义词但训练成本高。单语言场景推荐Unigram,多语言WordPiece更优。各方法在语义捕捉、计算效率上呈现不同权衡。
2025-07-05 11:20:23
220
原创 python绘制折线图
本文展示了使用Python的Matplotlib库绘制折线图的基本方法。代码示例创建了一个展示素数数据的折线图,包含标题、轴标签、图例和网格线等元素。重点介绍了plot()函数的关键参数:label(图例)、color(颜色)、marker(标记样式)和linestyle(线条样式)。此外,还说明了如何添加grid网格线并设置其透明度。该示例为数据可视化提供了简洁实用的入门指导,适合初学者快速掌握Matplotlib的基本绘图功能。
2025-06-25 09:52:27
176
原创 SentencePiece学习
SentencePiece是一种语言无关的子词切分工具,支持所有语言的文本处理。它主要使用txt文件输入,推荐直接使用训练好的模型而非生成词典。示例展示了如何训练BPE模型并实现文本到索引的转换:首先准备语料文件,设置训练参数(模型类型、词汇表大小等),然后加载模型进行编码,并提供批量转换函数将文本转为填充后的索引矩阵。实际应用中,Unigram算法比BPE更推荐使用。该方法适用于各类NLP任务,为深度学习模型提供数值化输入。
2025-06-09 17:52:15
180
原创 显卡对于模型训练的影响
显卡显存大小决定可训练模型规模,而TFLOPs影响训练速度。多卡并行只能加速训练,无法突破单卡显存对模型规模的限制。不同计算精度(如FP16/FP32)会影响实际TFLOPs数值和显存利用率。
2025-06-05 15:12:43
252
原创 ValueError: Unrecognized configuration class <class ‘transformers.models.bert.configuration_bert.Ber
原因:有可能是代码写错了,模型配置代码较长而且前面开头重复较高,可以检查一下有没写错。问题:模型配置不匹配。
2024-10-29 18:36:17
793
原创 安装transformer
pip install transformers datasets evaluate peft accelerate gradio optimum sentencepiece
2024-10-27 22:15:54
235
原创 pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 694, saw 2
read_csv默认分隔符为逗号,可能是文本中含逗号导致错误。
2024-08-18 11:34:15
857
原创 graphviz.backend.execute.ExecutableNotFound: failed to execute WindowsPath(‘dot‘), make sure the Gra
如果勾选自动添加环境变量安装不成功有可能是环境变量有冲突,删除多余环境变量即可,注意用户变量和系统环境变量要匹配。
2024-08-17 21:52:06
350
原创 ValueError:only one element tensors can be converted to Python scalars
list转tensor时list里面有tensor。
2024-08-17 19:41:04
126
原创 TypeError: TruncatedSVD.__init__() got an unexpected keyword argument ‘n_iters‘
解决方法:把n_iters改为n_iter。
2024-07-12 16:10:29
337
原创 from datasets import load_dataset 报错 AttributeError: readonly attribute
解决方法:更新datasets。
2024-07-12 11:16:27
717
原创 报错:cannot import name triu from scipy.linalg (xxx)
解决方法:降低scipy版本为1.10.1。
2024-07-12 11:11:54
978
原创 2:安装pycharm(解决pycharm配置anaconda环境时找不到python.exe文件)
解决方法:重新安装旧版pycharm,目前测试2022.2.5可以,2023.2.4和2023.1.4不行。原因:pycharm版本过新。附上pycharm下载官网。
2024-06-04 22:52:02
1210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1