机器学习
cyong888
live with passion
我目前在一线互联网大厂 :大模型算法专家
欢迎关注我 抖-音号:勇敢的杜兰特, 一起关注AI,关注agent,关注大模型
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
textcnn 的例子 用 Pytorch
1. 抽取训练数据 和 验证集 5:1 2. 生产词表:0 开始 ;同时统计每个句子的term数量 3. kernel_size= {2,3,4} 就是3个模板,分布式 2* n,3 *n, 4*n 4.kernel_num 是卷积输出channel数原创 2021-01-04 16:28:00 · 315 阅读 · 0 评论 -
团-搜索-面20201230
团-搜索-面 文本分类:样本失衡,如何解决 focalloss的原理是什么? 具体使用如何做? 向量召回 :一般有哪些方法? facebook的 faiss的原理是什么? bert 为什么比lstm好? selfattention的原理 bert 比 transform还多哪些东西? 完形填空部分,训练的是什么? ...原创 2020-12-31 11:19:19 · 152 阅读 · 0 评论 -
kuai手搜索广告面试题20201214
1. 数组的排列组合输出,譬如数组的值为123,那么输出为:123 132 213 231 321 312 2. 编辑距离的算法 这个要用到 动态规划,需要多看看 3. Top K的问题,当有一个数组 里面有很多值N个,我希望选出top K个值。 3.1 思路 先排序,这样可以,不过时间复杂度很高 3.2 建立小堆。 3.2.1 给N个值建立 小堆,此时时间复杂度是 K * logN。 3.2.2 给前面K个值建立小堆,然后 N-K的数字依次进入这个小堆,...原创 2020-12-15 16:52:28 · 247 阅读 · 0 评论 -
2020-数据挖掘面试题
1. 大数据方向 1.1 hive 的技巧: 小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join 1.2 当出现 数据倾斜,怎么解决 a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法 https://blog.youkuaiyun.com/anshuai_aw1/article/deta...原创 2020-11-30 18:14:45 · 183 阅读 · 0 评论 -
GBDT的使用例子
1.需要按照numpy 和 sklearn,安装的时候会有各种包的依赖。建议安装 anaconda3,这样就全部安装好了。安装地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 2.python3的代码如下(和python2差不多) 3.训练速度特别快,100W的训练数据不到5分钟。 # -*- coding:utf-8 -*- import numpy as np import codecs import pickle from skl.原创 2020-06-10 10:18:45 · 1376 阅读 · 0 评论 -
Nlp面试题-互联网
微信,头条,快手的nlp面的问题 1 lstm 是为了解决rnn的什么问题而提出的,他是如何解决的? 2 模型优化器 都有哪些?最好的是哪个?它好在哪里? Adam 动态调节学习率 3 序列标注里面的 crf是用来干嘛的?它的作用是什么?它是为了解决哪一类case 而出现的? 4 loss ,尝试过修改loss 吗? 5 attention的原理是什么?它学的是什么? ...原创 2020-01-09 22:47:08 · 512 阅读 · 0 评论 -
dnn反向传播推导
手工推导如下原创 2019-10-10 16:33:03 · 192 阅读 · 0 评论 -
正则化-L1-L2
为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化 正则化有2个: L1 = ||Wj|| 相加 L2=||Wj的平方||相加 对比: 1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能 2.L1 不可导,计算更复杂;L2可导,计算更加简洁。 在实践中,这两个可以一起使用 ...原创 2019-07-16 17:49:21 · 164 阅读 · 0 评论 -
机器学习常见的损失函数
1.均方差MSE 主要用于回归问题。 2.交叉熵损失函数 L = -(y*log(y) + (1-y)* log(1-y)) 主要用于:分类问题。它是分类问题中使用比较广的一种损失函数,因为 交叉熵刻画了2个概率分布之间的距离。 主要用于神经网络,在计算梯度的时候,如果用平方差后面会非常缓慢的去收敛 ...原创 2019-07-12 20:26:13 · 260 阅读 · 0 评论 -
模型学习的套路
我的学习套路(lstm做文本分类为例) 0. 下载github代码 git clone gihub地址 先把代码下载到本地 1. 数据有哪些? 2. 目标有哪些? 3. 数据input 是什么样的,一个batch 怎么获取。 3.1 数据预处理:其实就是 切词形成高频词表,把停用词去掉。 3.2 把训练数据顶一个最长的长度限制,超过截取。然后把每个句子变成词典id序列。同时把每个词(te...原创 2019-07-03 17:58:41 · 207 阅读 · 0 评论 -
bert参数-max_seq_length的含义解释
bert里面有个max_seq_length。就是字数的个数 在bert里面的函数 _truncate_seq_pair增加了 tokens_a 和 tokens_b的length函数 发现: 1.当len(tokens_a) + len(tokens_b)> max_seq_length:会循环:把长度大的那个截断一个字符,指导小于。 2.汉字算一个,英文的话,一个单词算一个,一个...原创 2019-07-01 16:53:26 · 14551 阅读 · 2 评论
分享