- 博客(158)
- 资源 (1)
- 收藏
- 关注
原创 SentenceTransformer model 转成 hugging face model
这样转换完成后,你的模型就可以像普通的 Hugging Face。来访问这个底层模型。库加载你已经保存的模型。兼容的格式,并可以通过。方法来保存这个模型。
2024-10-16 19:32:10
423
2
原创 pandas dataframe 怎么保留重复的行
方法查找DataFrame中的重复行,返回一个布尔Series,其中值为True表示对应的行是重复的。然后,我们使用这个布尔Series作为布尔索引,从DataFrame中选择重复的行,并将结果存储在。要保留Pandas DataFrame 中的重复行,可以使用。在上述代码中,我们首先使用。
2023-11-08 10:02:48
823
原创 pandas dataframe 统计某一列的值出现的次数并形成一列新的列
要统计Pandas DataFrame 中某一列的值出现的次数,并将结果形成一列新的列,可以使用。这样,DataFrame对象就包含了原始列和对应的值出现次数的新列。列中每个值的出现次数,然后将结果存储在。在上述代码中,我们首先使用。中的统计结果映射到新的列。
2023-11-08 09:56:12
2720
原创 查看linux的ip地址
以上命令执行后,会列出系统中所有网络接口的IP地址信息。通常,IP地址会显示在类似于。ifconfig命令会显示网络接口的详细信息,包括IP地址、子网掩码、网关等。ip命令可以显示网络接口的详细信息,包括IP地址、子网掩码、网关等。请注意,执行这些命令可能需要root权限或者使用sudo命令。hostname命令可以显示主机的IP地址。
2023-10-16 20:26:46
1113
原创 VSCode 提交 Git 代码
Git 作为版本控制工具,通过在开发过程中记录代码的变化,简化了开发者之间的代码协作。而对于许多开发者而言,命令行提交 Git 代码却是一项让人感到困难的任务。然而,现在你可以轻松地通过 VSCode 提交 Git 代码,让你的代码管理变得更加轻松和高效。在本文中,我们将介绍如何使用 VSCode 来实现简单的 Git 提交, 帮助你更加流畅地完成软件开发。1、打开vscode中的源代码管理模块,快捷键 Ctrl+Shift+G,如下图:2、点击“+”提交暂存区,如下图:2
2023-10-16 20:18:43
1140
原创 pyspark常用算子总结
7. pyspark中的DataFrame对一列分组统计数量,并添加到原来的dataframe,示例代码。12. 打印pyspark中dataframe中列的数据类型和列名,示例代码1。10. 打印pyspark中的dataframe的某一列的纯文本值,示例代码。1. pyspark中时间格式的数据转换为字符串格式的时间,示例代码。9. pyspark中的dataframe取前n行,示例代码。4. pyspark中选择其中一列不是空的行,示例代码。3. pyspark中选择其中一些列,示例代码。
2023-09-23 21:47:44
417
原创 打印 pyspark.sql.dataframe.DataFrame 有哪些列
属性获取列名,并将其打印出来。您可以将代码中的 DataFrame。在上述示例中,我们创建了一个包含三列的 DataFrame (替换为您的实际 DataFrame 对象。在 PySpark 中,要打印。
2023-09-20 14:07:15
695
原创 pyspark.sql.dataframe.DataFrame 怎么转pandas DataFrame
方法之前,您已经创建了 SparkSession 对象,并且在环境中正确配置了 PySpark。这样,您就可以将 PySpark DataFrame 转换为 Pandas DataFrame 并进行后续的分析和处理。方法将 PySpark DataFrame 转换为 Pandas DataFrame,并将结果存储在。pyspark.sql.dataframe.DataFrame 怎么转pandas DataFrame。在上述示例中,我们首先使用 PySpark 创建了一个示例 DataFrame。
2023-09-19 14:20:49
1586
原创 torch 怎么向 dataloader的collate_fn传参数
是Python的内置函数,它可以创建一个新的函数,其中一些参数被预先设置为特定的值。函数将在每个批次的数据被组合时被调用,并可以使用预先设置的参数值。函数将在每个批次的数据被组合时被调用,并可以使用预先设置的参数值。,以便根据您的需求执行自定义的逻辑。请根据您的情况选择适合的方法。另一种方法是定义一个接受参数的函数,并在该函数内部调用真正的。在上述代码中,我们首先定义了一个自定义的。然后,我们定义了一个新的函数。对象,并将新的函数作为。,生成一个新的函数。最后,我们创建了一个。,并执行自定义逻辑。
2023-09-14 16:04:40
520
原创 pandas dataframe groupby 输出 和 指定索引输出
pandas dataframe groupby 输出 和 指定索引输出。
2023-09-14 15:51:13
820
原创 linux查看ip
在输出中,您会看到各个网络接口的详细信息,包括 IP 地址。请注意,这些命令可能需要使用管理员权限(sudo)来执行。3. 使用 hostname 命令。这会显示当前主机的 IP 地址。1.使用ifconfig命令。2. 使用 ip 命令。
2023-09-12 14:18:09
128
原创 linux对一个文件夹中的所有文件重命名
请注意,在执行重命名操作之前,请确保你在目标文件夹的正确路径下,并且要小心操作,以防止不必要的数据丢失。命令对一个文件夹下的所有文件进行重命名。方法2: 使用正则表达式重命名。在Linux中,你可以使用。如果你想给这些文件添加前缀。例如,假设你有一个文件夹。
2023-09-08 13:53:28
2513
原创 vscode 远程连接
这里记录的是修改ssh配置文件的方式远程连接服务器中的docker服务器。假如已经创建好了docker,并已经启动。4. vs code连接远程服务器。3. 在docker中重启服务器。
2023-08-28 13:48:23
888
原创 github ssh配置
注意:上面的操作完了之后,如果是访问特定组织的rep,可能需要再次点开settings => SSH and GPG keys => 找到刚添加的SSH key => 点击 “Configure SSO” => 点击授权对应的组织。打开github的settings => SSH and GPG keys => new SSH key => 把复制的公钥添加在对应的key的文本框内 => 点击 “Add SSH key”生成的公钥默认在文件夹 ~/.ssh/ 下的 id_rsa.pub。
2023-08-14 14:17:56
1743
原创 在服务器开jupyter notebook server
生成的配置文件,在linux下的路径一般是“/home/USERNAME/.jupyter/jupyter_notebook_config.py”上面的指令也可以添加上 --allow-root。5、启动notebook后台运行。1、安装notebook。7、查看端口是不是被占用。6、在本地浏览器访问。
2023-08-13 18:06:43
890
原创 模型量化转int8
在模型部署阶段,考虑到模型大小,通常会做量化,其中一种方式是把模型输出转成int8,这样可以节省存储空间。下面是转成int8的代码。
2023-08-13 15:22:38
386
原创 python 写json格式的文件,每行都是json数据形式
上面的代码用于把一个list的数据写入一个文件,文件的每一行都是json格式的数据。
2023-08-11 16:28:46
287
原创 双塔模型DSSM及各种变体塔
本文是由参考1和参考2整合而来。本文主要介绍项目中用于商业兴趣建模的DSSM双塔模型。作为推荐领域中大火的双塔模型,因为效果不错并且对工业界十分友好,所以被各大厂广泛应用于推荐系统中召回阶段。通过构建user和item两个独立的子网络,将训练好的两个“塔”中的user embedding 和item embedding各自缓存到内存数据库中。线上预测的时候只需要在内存中计算相似度运算即可。DSSM双塔模型是推荐领域中不得不会的重要模型。1 为什么要学习DSSM双塔模型我们标签组主要的服务.
2021-03-21 19:39:55
4806
原创 搜索系统中的纠错问题
原文来自:微信公众号:CS的陋室(chashaoroom)欢迎关注微信公众号:鸿煊的学习笔记(Techs_AI)纠错是搜索引擎中一个非常有特色的模块,对用户输入的内容进行改写从而让用户得到正确的结果,有的时候也会带有一些惊喜度,所以纠错技术是一个搜索体验的加分项。1、纠错技术的背景人非圣贤,孰能无过,别说是搜索的时候,哪怕是我们打字、写作文的时候,都会出现错字,一般的错别字不会对最终目标带来很大影响,且出现频率很低,不拘小节的我们常常会忽略这样的小问题,但是,在搜索场景下,错别字意味着.
2021-01-08 17:54:51
716
原创 短文本相似度-CNN_SIM
原文来自:微信公众号:CS的陋室(chashaoroom)欢迎关注微信公众号:鸿煊的学习笔记(Techs_AI)今天和大家分享一篇有关文本相似度的经典文章。Severyn A , Moschitti A . Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]. the 38th International ACM SIGIR Conference. ACM, 2015.有关实现,幸运地在g.
2021-01-08 16:49:46
1077
原创 词权重问题
词权重问题原文来自:微信公众号:CS的陋室(chashaoroom)欢迎关注微信公众号:鸿煊的学习笔记(Techs_AI)NLP领域,大家的目标可能都集中在语言模型、文本分类、命名实体识别等热点任务上,且由于NLP的自动特征工程的特性,词权重问题显得就不那么在大家的目光中,但实际上,他却在很多领域里产生了重要作用,个人感觉词权重更像是一个支持性的任务,能给很多具体任务提供参考吧,而且这种支持因为简单快捷,效果显著,甚至能代替大体量模型完成基线任务,所以在工业界其实用处不少,但是又由于其工作.
2021-01-07 13:53:32
1151
原创 搜索中的命名实体识别
搜索中的命名实体识别原文来自:微信公众号:CS的陋室(chashaoroom)欢迎关注微信公众号:鸿煊的学习笔记(Techs_AI)命名实体识别基线 BiLSTM+CRF在了解基线的基础上,谈搜索中的业务可能就会比较容易了。在文章前面给出参考文献:美团旅游搜索召回策略演进:https://tech.meituan.com/2017/06/16/travel-search-strategy.html1、简述搜索中的NLP应用日常所谓的搜索,大家最常见的就是类似百度之类的大搜,.
2021-01-06 23:54:46
681
原创 无中生有:论推荐算法中的Embedding思想
本文来自微信公众号:荐频道(RecSysTao)欢迎关注微信公众号:鸿煊的学习笔记(Techs_AI)前言前段时间面试了许多应界生同学,惊讶地发现很多同学只做深度学习,对LR/GBDT这样的传统机器学习算法,既不掌握理论,也从未实践过。于是就想写一篇文章,梳理一下推荐算法由传统机器学习,发展到深度学习,再到未来的强化学习、图神经网络的技术发展脉络,因为「只有了解过去,才能更好地把握当下与未来」。无奈这个题目太大,再加上近来分身乏术,实在无暇宏篇大论。于是今日小撰一文,聚焦于深度学习的核心思想
2021-01-05 19:42:09
655
原创 万物皆可Embedding
本篇文正是转载于微信公众号:深度学习与推荐系统在做推荐系统算法模型时,embedding是重要的一个步骤,有的推荐算法模型其实就是在做embedding的过程,可见embedding在推荐系统中的重要性。这篇文章就专门把embedding单独提出来,梳理一下embedding在推荐系统中的应用。以下内容主要从深度学习方法和传统的协同过滤方法两个方面加深和理解在推荐系统领域对embedding的认识,感受下“embedding”这一重要思想。Embedding在深度学习推荐系统中的应用先.
2020-12-26 17:00:23
538
原创 DeepFM原理与实践
CTR预估DeepFM是CTR预估领域优秀的模型之一,因此这里简单介绍下CTR预估。CTR预估数据特点:1. 输入中包含类别型和连续型特征。类别型特征需要经过one-hot处理, 连续型数据可以先离散化再one-hot,也可以直接保留原值2. 维度非常高3. 数据非常稀疏4. 特征按照Field分组CTR预估重点在于学习组合特征。注意,组合特征包括二阶、三阶甚至更高阶的,阶数越高越复杂,越不容易学习。Google 的论文研究得出结论:高阶和低阶的组合特征都非常重要,同时学习到这两
2020-11-23 20:35:53
749
1
原创 Spark删除HDFS文件的两种方式
import org.apache.hadoop.fs.Pathimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionobject DeleteHdfsFile { /** * 删除hdfs文件目录方法1 */ def deleteHdfsPath1(sc: SparkContext, filePath: String): Unit = { .
2020-11-17 20:38:22
2602
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人