
深度学习
文章平均质量分 73
我是京城小白
这个作者很懒,什么都没留下…
展开
-
增量训练lightgbm模型,深度学习模型
增量训练lightgbm模型,深度学习模型原创 2022-11-25 16:46:53 · 2255 阅读 · 1 评论 -
【调参Tricks】WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach
一个猜测是,预训练语言模型生成的各个句向量应该在坐标系中的各个位置是相对均匀的,即表现出各项同性。以余弦相似度作为向量相似度衡量的指标的是建立在“标准正交基”的基础上的,基向量不同,向量中各个数值所代表的的意义也变不一样。然后经过BERT抽取之后的句向量所处的坐标系可能并非基于同一个“标准正交基”的坐标系。根据苏神的博客,只保留SVD提取出来的前N个特征值可以提升进一步的效果。并且,由于只保留了前N个特征,故与PCA的原理类似,相当于对句向量做了一步降维的操作。原创 2022-10-20 15:02:10 · 412 阅读 · 0 评论 -
深度学习之前馈神经网络(前向传播和误差反向传播)
转自:https://www.cnblogs.com/Luv-GEM/p/10694471.html这篇文章主要整理三部分内容,一是常见的三种神经网络结构:前馈神经网络、反馈神经网络和图网络;二是整理前馈神经网络中正向传播、误差反向传播和梯度下降的原理;三是梯度消失和梯度爆炸问题的原因及解决思路。一、神经网络结构目前比较常用的神经网络结构有如下三种:1、前馈神经网络前馈神经网络中,把每个神经元按接收信息的先后分为不同的组,每一组可以看做是一个神经层。每一层中的神经元接收前一层神经元的输出原创 2021-04-02 11:10:16 · 4224 阅读 · 1 评论 -
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
今天分享的是ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT,论文地址:https://arxiv.org/pdf/2004.12832.pdf原创 2020-12-06 20:43:50 · 968 阅读 · 0 评论 -
为什么使用word2vec得出的词向量,可以用向量的距离来衡量词相似度?
==========================================================推荐系统的召回模块中,可以通过上述的结论解释如下问题:(1)离线部分:一般在网络结构的最后一层,对User Embedding和Item Embedding使用Cos相似度建模(例如YouTube, DSSM等);(2)在线部分:使用 Faiss 或者 Annoy 对 User Embedding 在商品池中检索 Item Embedding Index。 Fais...原创 2020-08-24 17:53:46 · 766 阅读 · 0 评论 -
AutoML重要python模块总结
1. 推荐python库scikit-optimizeoptuna2. 书籍、论文、数据信息:2.1 书籍深入理解AutoML和AutoDL:构建自动化机器学习平台2.2 论文集awesome-automl-papers2.3 数据集Benchmark and Survey of Automated Machine Learning Frameworks 论文 P43 汇总了 137 个数据集,测试结果(指标:Accuracy)见 P47.2.4 可实验数据集Data网址原创 2020-08-20 16:07:28 · 459 阅读 · 0 评论 -
tensorflow feature_column 合集
前言feature_column 输入输出类型,用一个数据集给出demofeature_column 接estimatorfeature_column 接Keras1. feature_column的输入输出类型1.1 输入输出类型feature_column输入可以是原始特征的列名,或者是feature_column。初上手感觉feature_column设计的有点奇怪,不过熟悉了逻辑后用起来还是很方便的。几个需要习惯一下的点:深度模型的输入必须是Dense类型,所有输出是catego原创 2020-08-13 11:11:26 · 224 阅读 · 0 评论 -
Tensorflow训练网络出现了loss = NAN解决方案
在训练的时候,整个网络随机初始化,很容易出现Nan,这时候需要把学习率调小,可以尝试0.1,0.01,0.001,直到不出现Nan为止,如果一直都有,那可能是网络实现问题。学习率和网络的层数一般成反比,层数越多,学习率通常要减小。有时候可以先用较小的学习率训练5000或以上次迭代,得到参数输出,手动kill掉训练,用前面的参数fine tune,这时候可以加大学习率,能更快收敛哦。转自:https://www.jianshu.com/p/79ea75c47004数据本身,是否存在N...原创 2020-08-10 09:50:05 · 1317 阅读 · 0 评论 -
在Jupyter Notebook终止cell(代码块)而非终止(重启)整个Jupyter
当IPython的某个cell陷入死循环或长时间没有响应,想终止当前cell,但不想重启Kernel,可以这样做:(第1种方式)在工具栏,点击Kernel(内核)子菜单中的Interrupt(中断)。(第2种方式)在想终止的cell,按ESC键,让其脱离编辑状态,在命令状态中,连续按两次“I”键(interrupt的首字母)(简单:推荐)...原创 2020-08-08 21:15:29 · 8556 阅读 · 0 评论 -
负样本为王:评Facebook的向量化召回算法
写在前面,转自:负样本为王:评Facebook的向量化召回算法作者:石塔西链接:https://zhuanlan.zhihu.com/p/165064102来源:知乎有人的地方就会有江湖,就会有鄙视链存在,推荐系统中也不例外。排序、召回,尽管只是革命分工不同,但是我感觉待遇还是相差蛮大的。排序排序,特别是精排,处于整个链条的最后一环,方便直接对业务指标发力。比如优化时长,只要排序模型里,样本加个权就可以了。排序由于候选集较小,所以有时间使用复杂模型,各种NN,各种Attentio原创 2020-07-30 09:46:15 · 2181 阅读 · 0 评论 -
tensorflow (1)WARNING:tensorflow:AutoGraph could not transform;(2)自定义层 无训练的参数
背景:自定义了一个层,该层中引用了一个函数(该函数中有dense层)。出现问题:(1)WARNING:tensorflow:AutoGraph could not transform <bound method DinAttentionLayer.call of <din.DinAttentionLayer object at 0x1487f00ea198>> and will run it as-is.Please report this to the TensorFl.原创 2020-07-20 11:30:37 · 5187 阅读 · 5 评论 -
阿里点击预估模型的数据(Ad Display/Click Data on Taobao.com)
Ad Display/Click Data on Taobao.com地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=56原创 2020-07-17 00:53:04 · 2172 阅读 · 1 评论 -
自然语言-多国翻译数据集下载
地址:http://www.manythings.org/anki/原创 2020-07-15 09:31:41 · 591 阅读 · 1 评论 -
keras vgg16模型下载
欢迎关注微信公众号:python科技园官网地址:https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5改文件放到了百度网盘中,链接和密码如下:链接:https://pan.baidu.com/s/1Exa8g_q9hVmqOU9SBrIxrg提取码:qtsb...原创 2020-06-12 00:45:20 · 1605 阅读 · 0 评论 -
tf.sequence_mask后做max操作或avg操作
以推荐商品为例:(1)两个user;(2)user在历史一个月中分别购买力2个和6个item;(3)历史数据中 Input 的商品数量固定为3;1. 定义数据import numpy as npimport tensorflow as tf# user真实的历史行为个数(item 个数)hist_seq_num_list = np.array([[2], [6]])# user历史行为中的item所对应的embeddinghist_user_embedding_.原创 2020-05-17 17:25:19 · 333 阅读 · 0 评论 -
分析DIN模型中的 Activation Unit
DIN模型中的 Activation Unit 图示原创 2020-05-07 18:02:51 · 1866 阅读 · 2 评论 -
理解 tf.keras.layers.Attention
官方链接:https://tensorflow.google.cn/versions/r2.1/api_docs/python/tf/keras/layers/Attention语法:tf.keras.layers.Attention( use_scale=False, **kwargs)Inputs arequerytensor of shape[batch_...原创 2020-05-07 17:48:53 · 11510 阅读 · 1 评论 -
tensorflow中多维tensor运算(tf.multiply, tf.matmul, tf.tensordot)
1. tf.multiply2. tf.matmul3. tf.tensordot1. tf.multiplytf.multiply 等同与 * ,用于计算矩阵之间的 element-wise 乘法,要求矩阵的形状必须一致(或者是其中一个维度为1),否则会报错。import tensorflow as tfa = tf.constant([1, 2, 3, 4, 5...原创 2020-05-07 15:35:18 · 3091 阅读 · 0 评论 -
FiBiNET:结合特征重要性和双线性特征交互进行CTR预估
FiBiNET全称FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction,是新浪微博提出的一种基于深度学习的广告推荐/点击率预测算法。可以认为FiBiNET是在wide & deep模型的基础上对它的wide部分进行了一些创新的改进,或者...原创 2020-04-22 20:06:13 · 3651 阅读 · 1 评论 -
NFM模型理论与实践
今天介绍一下NFM模型算法,NFM模型是FM模型的神经网络化尝试:即将FM的二阶交叉项做为Deep模型的输入,以此加强模型的表达能力。经典的FM模型的数学表达式如公式(1)所示:(公式 1)在数学形式上,NFM模型的主要思路是用一个表达能力更强的函数替代原FM中二阶隐向量内积部分。NFM的表达式如公式(2)所示:(公式 2)NFM模型的深度网络部分结构图如图(1)所示。...原创 2020-04-21 00:18:17 · 3386 阅读 · 0 评论 -
word2vec和sentence2vec的真正差别是什么?后者和简单用词向量累加有什么差别?
转载:知乎话题:word2vec和sentence2vec的真正差别是什么?后者和简单用词向量累加有什么差别?@zack 的回答参考链接:https://www.zhihu.com/question/34268273/answer/135737017...原创 2020-04-14 23:04:56 · 595 阅读 · 0 评论 -
扒一扒 FM 算法的实现
模型是在 和 的基础上发展而来的,与相比的主要区别是用两个向量的内积取代了单一的权重系数。具体地说,为每个特征学习了一个隐向量权重。在做特征交叉时,使用两个特征隐向量的内积作为交叉特征的权重。其中:本质上,算法引入隐向量的做法,与矩阵分解用隐向量表示用户和物品的做法异曲同工。是将矩阵分解隐向量的思想进行了进一步的扩展,从单纯的 user embedding、it...原创 2020-04-12 20:20:56 · 1270 阅读 · 4 评论 -
keras 之 fit_generator 和 validation_data
摘自:Python深度学习下载链接:https://pan.baidu.com/s/1GRBL5WvxHj79i9Rs28AshQ 提取码: dpnf直接上示例代码:数据集下载地址:jena_climate_2009_2016.csv(https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip)...原创 2020-04-10 17:55:52 · 4020 阅读 · 10 评论 -
keras中的Lambda 层中的使用
官网介绍:Lambdakeras.layers.Lambda(function, output_shape=None, mask=None, arguments=None)将任意表达式封装为Layer对象。例如:# 添加一个 x -> x^2 层model.add(Lambda(lambda x: x ** 2))# 添加一个网络层,返回输入的正数部分# 与...原创 2020-04-10 17:15:43 · 8842 阅读 · 2 评论 -
在 Keras 模型中使用预训练的词向量
文章信息通过本教程,你可以掌握技能:使用预先训练的词向量和卷积神经网络解决一个文本分类问题。本文代码已上传到Github 本文地址:http://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html 本文作者:Francois Chollet 48.1 什么是词向量? ”词向量”(词嵌...原创 2020-04-10 15:17:24 · 1510 阅读 · 3 评论 -
A Discriminative Feature Learning Approach for Deep Face Recognition 配置 caffe-face 并训练数据
A Discriminative Feature Learning Approach for Deep Face Recognitiongithub: https://github.com/ydwen/caffe-face配置 caffe-face,并训练数据。1. 配置 caffe-face下载源代码并在服务器上直接进行 caffe-face 编译:make: *** [.build_relea...原创 2018-02-07 22:48:49 · 508 阅读 · 0 评论