
机器学习
cyong888
live with passion
展开
-
textcnn 的例子 用 Pytorch
1. 抽取训练数据 和 验证集 5:12. 生产词表:0 开始 ;同时统计每个句子的term数量3. kernel_size= {2,3,4} 就是3个模板,分布式 2* n,3 *n, 4*n4.kernel_num 是卷积输出channel数原创 2021-01-04 16:28:00 · 262 阅读 · 0 评论 -
团-搜索-面20201230
团-搜索-面文本分类:样本失衡,如何解决focalloss的原理是什么?具体使用如何做?向量召回 :一般有哪些方法?facebook的 faiss的原理是什么?bert 为什么比lstm好?selfattention的原理bert 比 transform还多哪些东西?完形填空部分,训练的是什么?...原创 2020-12-31 11:19:19 · 116 阅读 · 0 评论 -
kuai手搜索广告面试题20201214
1. 数组的排列组合输出,譬如数组的值为123,那么输出为:123 132 213 231 321 3122. 编辑距离的算法 这个要用到 动态规划,需要多看看3. Top K的问题,当有一个数组 里面有很多值N个,我希望选出top K个值。 3.1 思路 先排序,这样可以,不过时间复杂度很高 3.2 建立小堆。 3.2.1 给N个值建立 小堆,此时时间复杂度是 K * logN。 3.2.2 给前面K个值建立小堆,然后 N-K的数字依次进入这个小堆,...原创 2020-12-15 16:52:28 · 207 阅读 · 0 评论 -
2020-数据挖掘面试题
1. 大数据方向1.1 hive 的技巧: 小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join1.2 当出现 数据倾斜,怎么解决 a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法https://blog.youkuaiyun.com/anshuai_aw1/article/deta...原创 2020-11-30 18:14:45 · 163 阅读 · 0 评论 -
GBDT的使用例子
1.需要按照numpy 和 sklearn,安装的时候会有各种包的依赖。建议安装 anaconda3,这样就全部安装好了。安装地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/2.python3的代码如下(和python2差不多)3.训练速度特别快,100W的训练数据不到5分钟。# -*- coding:utf-8 -*-import numpy as npimport codecsimport picklefrom skl.原创 2020-06-10 10:18:45 · 1320 阅读 · 0 评论 -
Nlp面试题-互联网
微信,头条,快手的nlp面的问题1 lstm 是为了解决rnn的什么问题而提出的,他是如何解决的?2 模型优化器 都有哪些?最好的是哪个?它好在哪里? Adam 动态调节学习率3 序列标注里面的 crf是用来干嘛的?它的作用是什么?它是为了解决哪一类case 而出现的?4 loss ,尝试过修改loss 吗?5 attention的原理是什么?它学的是什么?...原创 2020-01-09 22:47:08 · 470 阅读 · 0 评论 -
dnn反向传播推导
手工推导如下原创 2019-10-10 16:33:03 · 167 阅读 · 0 评论 -
正则化-L1-L2
为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化正则化有2个:L1 = ||Wj|| 相加L2=||Wj的平方||相加对比:1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能2.L1 不可导,计算更复杂;L2可导,计算更加简洁。在实践中,这两个可以一起使用...原创 2019-07-16 17:49:21 · 133 阅读 · 0 评论 -
机器学习常见的损失函数
1.均方差MSE主要用于回归问题。2.交叉熵损失函数 L = -(y*log(y) + (1-y)* log(1-y)) 主要用于:分类问题。它是分类问题中使用比较广的一种损失函数,因为 交叉熵刻画了2个概率分布之间的距离。 主要用于神经网络,在计算梯度的时候,如果用平方差后面会非常缓慢的去收敛...原创 2019-07-12 20:26:13 · 237 阅读 · 0 评论 -
模型学习的套路
我的学习套路(lstm做文本分类为例)0. 下载github代码git clone gihub地址先把代码下载到本地1. 数据有哪些?2. 目标有哪些?3. 数据input 是什么样的,一个batch 怎么获取。3.1 数据预处理:其实就是 切词形成高频词表,把停用词去掉。3.2 把训练数据顶一个最长的长度限制,超过截取。然后把每个句子变成词典id序列。同时把每个词(te...原创 2019-07-03 17:58:41 · 168 阅读 · 0 评论 -
bert参数-max_seq_length的含义解释
bert里面有个max_seq_length。就是字数的个数在bert里面的函数 _truncate_seq_pair增加了 tokens_a 和 tokens_b的length函数发现:1.当len(tokens_a) + len(tokens_b)> max_seq_length:会循环:把长度大的那个截断一个字符,指导小于。2.汉字算一个,英文的话,一个单词算一个,一个...原创 2019-07-01 16:53:26 · 14256 阅读 · 2 评论