- 博客(21)
- 资源 (5)
- 收藏
- 关注

原创 sklearn 的基本机器学习(分类方法)
1.KNN原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是KNN算法 k 的出处, 通常 k 是不大于
2017-08-29 14:58:15
9356
原创 Kaggle上面命令Proceed (y/n)的处理
遇到要选择的时候Proceed (y/n)后面直接加 --yes 就可以了! pip uninstall bert4keras --yes
2020-08-12 14:53:19
7189
6
转载 CrossEntropyLoss、MSELoss、BCEWithLogitsLoss区别
基于pytorch来讲MSELoss()多用于回归问题,也可以用于one_hotted编码形式,CrossEntropyLoss()名字为交叉熵损失函数,不用于one_hotted编码形式MSELoss()要求batch_x与batch_y的tensor都是FloatTensor类型CrossEntropyLoss()要求batch_x为Float,batch_y为LongTensor类型(1)CrossEntropyLoss() 举例说明:比如二分类问题,最后一层输出的为2个值,比
2020-08-11 10:12:07
3647
1
原创 Bert抽取词向量进行工程运用 | 如word2vec一般丝滑
应用场景:QA对话系统|检索系统任务: 希望能够在数据库中找到与用户问题相似的【句子对|词语】,然后把答案返回给用户。这篇就是要解决这个问题的。方法: 下面提供两个方法,一个是基于google 开源的bert,另一个是基于pytorch-transformer1. BERT 语义相似度BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的E.
2020-07-28 09:57:19
1397
转载 pytorch基础知识-Cross Entropy
pytorch基础知识-Cross Entropyhttps://cloud.tencent.com/developer/article/1539723上节课介绍了Cross Entropy 与 Enropy的区别,本节介绍Cross Entropy到底在二分类问题中是如何运算的。假设面对的是猫狗的二分类问题,此时的Cross Entropy的表示公式为:为更好的理解,我们以5分类问题进行解释实际值为小猫。当模型预测效果较好时这里注意到使用Cross En...
2020-07-17 15:38:26
545
原创 Bert油管视频学习
原博客位置:https://www.cnblogs.com/tfknight/p/13267870.html我们说的contextualized word embedding 就是取中间这个部分的向量出来,这里是上文的所有信息。高烧退了丞退了这两个向量都是不同的elmo直接用两个参数相加更新, 全都要h = a1*h1 + a2*h2bert抽取出来的[mask 词]的embedding 一定要够准,要不然linear classif...
2020-07-17 11:07:41
216
原创 windows安装MYSQL报错问题解决
报错信息:MySQL 服务正在启动 .......MySQL 服务无法启动。服务没有报告任何错误。请键入 NET HELPMSG 3534 以获得更多的帮助。解决方法:https://blog.youkuaiyun.com/Butterfly_resting/article/details/89241058本人出现这个问题的是因为本人在跟换新版本的MySQL的时候,原设置的是系...
2020-04-12 19:54:39
433
原创 kaggle Quora Insincere Questions 总结
第三名:https://www.kaggle.com/wowfattie/3rd-place用到了词向量的拼写检查:https://www.kaggle.com/cpmpml/spell-checker-using-word2vec 第四名:https://www.kaggle.com/tks0123456789/pme-ema-6-x-8-pochs还没仔细看第1...
2019-02-25 11:39:58
902
原创 NLP小白的Kaggle一轮游总结
博主大三,一月中旬期末考试结束之后都放在这个比赛上面了--Quora Insincere Questions Classification。大半个月过来,做了很多尝试,线下成绩提高了不少,线上LB的成绩还是原地踏步 :)。现在来总结一下自己做过的一些工作,给大家以及自己一些参考反思。如果各路大佬有更好的idea,欢迎骚扰交流~该竞赛是个典型的文本二分类问题,用的是美国的知乎(quora...
2019-01-29 15:25:12
2085
1
原创 下载fastai杂谈
https://github.com/fastai/fastai按照官网的指示其实就是两条指令的事情,pip install torch_nightly -f https://download.pytorch.org/whl/nightly/cu92/torch_nightly.htmlpip install fastai 但是在下载的时候报错,说我是:Command"py...
2018-11-24 12:18:38
796
原创 python 调参神器hyperopt
最近学习到了一个hyperopt 的一个调参工具(相对于gridsearch的暴力调参,这个速度更加快一点)官网地址:http://hyperopt.github.io/hyperopt-sklearn/1.安装:sudo pip install hyperoptsudo pip install calibration(安装时遇到了安装问题:'generator' object is not su...
2018-06-09 14:13:51
3612
原创 RNN 超详细入门代码(mnist)
最近在看Morvan老师的视频,入门RNN,在这里也贴上自己根据老师的课程修改过的RNN代码,作为学习~用到的是RNN 神经网络,mnist数据集# -*- coding: utf-8 -*-import numpy as npnp.random.seed(1337)from keras.datasets import mnistfrom keras.utils import np_...
2018-05-24 20:59:17
2790
原创 python+CNN超详细入门(mnist数据集)
# -*- coding: utf-8 -*-__author__ = "TF大Q"import numpy as npnp.random.seed(1337) from keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Act...
2018-05-14 14:43:09
18479
13
原创 python 常用中文分词工具
最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP这三种分词工具,在这里分享下~1.jieba 分词:# -*- coding: UTF-8 -*-import osimport codecsimport jiebaseg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')...
2018-04-13 15:07:48
3929
原创 下载CRFPP杂谈
按照官方下载来,https://taku910.github.io/crfpp/#download,一般下载python源码,都是四个步骤:1 解压压缩包2 ./configure3 make4 sudo make install 但是在make install这步报错.....错误如下: 这里的主要原因是 library 这个东西被默...
2018-01-11 09:58:18
953
原创 两个有序序列的中位数(详解)
1. 实践题目7-3 两个有序序列的中位数 2. 问题描述在一行中输出两个输入序列的并集序列的中位数。时间复杂度不能大于O(logn) 3. 算法描述(不能粘贴程序)因为时间复杂度不能大于logn,所以把原序列排好序再来找中位数是不可能的了(快排nlogn)。故我采用二分法的思想,对原序列进行二分处理,比较中位数。比到最后两个指针的情况如图所示,此时较小的数即为
2017-12-17 12:58:05
12079
3
原创 java 数字三角形
1. 实践题目7-1 数字三角形2. 问题描述给定一个由 n行数字组成的数字三角形如下图所示。试设计一个算法,计算出从三角形 的顶至底的一条路径(每一步可沿左斜线向下或右斜线向下),使该路径经过的数字总和最大。3. 算法描述(不能粘贴程序) 用一个二维数组来储存数据,从底向上的进行叠加,从b[i][j]出发,下一步只能是 b[i-1][j]或者b[i
2017-12-17 12:44:27
2668
原创 改写二分搜索算法
1. 实践题目7-2 改写二分搜索算法2. 问题描述输出小于x的最大元素的最大下标i和大于x的最小元素的最小下标j。当搜索元素在数组中时,i和j相同。 提示:若x小于全部数值,则输出:-1 0 若x大于全部数值,则输出:n-1的值 n的值3. 算法描述(不能粘贴程序)在基本的二分查找里面做改进,满足题目要求。一开始我是对越底界,越高界,直接找得到,以及在两者之间
2017-12-17 12:34:43
1135
原创 keras入门-简单数据集的运用
Keras:Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生.Keras的核心数据结构是“模型”,模型是一种组织网络层的方式。Keras中主要的模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈。下面我就用两个经典数据集iris 和 mnist load_iris()mnist.load_data()
2017-10-10 19:59:56
3061
transformer.zip
2020-07-17
BERT-BiLSTM-CRF-master.zip
2020-07-17
做分词用到的一个工具包CRF++,亲测可以使用
2018-01-11
word2vec词向量
2018-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人