
机器学习
想念@思恋
这个作者很懒,什么都没留下…
展开
-
【机器学习】pandas读取数据后,使用svm训练一个分类模型
本文展示如何使用 Pandas 读取数据并将其与 SVM 模型结合起来,从而训练一个分类模型原创 2024-04-24 23:03:36 · 308 阅读 · 0 评论 -
【机器学习】使用sklearn进行二分类快速实战
使用 scikit-learn(sklearn)库进行二分类任务的简单示例,这里使用的是一个经典的鸢尾花数据集(Iris dataset)原创 2024-04-24 22:40:35 · 337 阅读 · 0 评论 -
【xgboost】使用xgboost训练一个简单模型
使用pandas读取特征数据,并处理数据中的双引号,同时使用xgboost训练一版模型。原创 2024-04-19 23:00:45 · 404 阅读 · 0 评论 -
torch.scatter_
torch.scatter_原创 2022-07-17 22:28:29 · 492 阅读 · 2 评论 -
self-attention和rnn计算复杂度的对比
Attention is all you need论文中的实验分析部分罗列了self-attention和rnn的复杂度对比,特此记录一下自己对二者复杂度的分析。注意:n表示序列长度,d表示向量维度。1、self-attention的复杂度为O(n2⋅d)O(n^{2} \cdot d)O(n2⋅d),其来源自self-attention计算公式:Attention(Q,K,V)=Softmax(QKTdk)VAttention(Q,K,V)=Softmax(\frac{QK^{T}}{\sq.原创 2022-04-01 09:48:18 · 9525 阅读 · 4 评论 -
对A Neural Probabilistic Language Model中模型图的理解
神经网络语言模型NNLM解决的一大问题:维度灾难:由于向量维度过大,导致模型计算量爆炸。NNLM经典模型图如下所示:其中,C(i)C(i)C(i)表示第i个词的词向量,ggg代表可以使用的神经网络,在NNLM中,假设当前词是与前n-1个词有关系的。图一代表的公式其实是下式:y=b+Wx+Utanh(d+Hx) y=b+Wx+Utanh(d+Hx)y=b+Wx+Utanh(d+Hx)其中x被使用了两次,分别对应图一中上半部分的实线和虚线。...原创 2022-03-12 21:13:09 · 940 阅读 · 0 评论 -
prompt-based models
原论文:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing介绍四类prompt-based的模型Tuning-free Prompting(1)冻结LM(语言模型)的参数,不进行微调;(2)使用promtp,但其不涉及参数训练。优点:效率高,没有参数更新过程。因为LM参数保持不变,所以没有灾难性遗忘(LM失去了在微调之前能够做某.原创 2022-01-24 16:13:12 · 2514 阅读 · 0 评论 -
实例:SGD在神经网络中的应用及其反向传播过程
利用神经网络模拟直线,并验证自己对反向传播的理解。具体推导见文章末尾。import torchimport torch.nn as nnimport torch.optim as optimimport mathimport randomimport numpy as npimport torch.nn.functional as F# 设置随机种子def setup_seed(seed): torch.manual_seed(seed) # 为cpu分配随机种子 .原创 2021-09-05 15:56:06 · 725 阅读 · 1 评论 -
记录SGD的一次应用,验证其“随机”功能
代码引用自:https://blog.youkuaiyun.com/weixin_39228381/article/details/108310520import torchdef test_sgd(): # 定义一个可学习参数w,初值是100 w = torch.tensor(data=[[[100, 100, 100, 100, 100], [100, 100, 100, 100, 100]], .原创 2021-09-04 13:32:00 · 202 阅读 · 0 评论 -
SVM-支持向量机之重要概念记录
选自李航老师的《统计学习方法》1、函数间隔与几何间隔几何间隔也就是点到超平面的距离。2、SVM目标:最大化几何间隔转化为最小化参数模的平方3、对偶问题通过解对偶问题得到的结果如下(通过对偶问题的解,可以计算原问题的解)。...原创 2021-08-20 21:00:37 · 117 阅读 · 0 评论 -
《统计学习方法》第7章-例7.2详解
等会补充解释原创 2021-08-20 20:38:15 · 1284 阅读 · 3 评论 -
Stanford Parser 标签说明
词性解释CC: conjunction, coordinatin 表示连词CD: numeral, cardinal 表示基数词DT: determiner 表示限定词EX: existential there 存在句FW: foreign word 外来词IN: preposition or conjunction, subordinating 介词或从属连词JJ: adjective or numeral, ordinal 形容词或序数词JJR: adjective, compara.转载 2021-02-17 15:27:04 · 291 阅读 · 0 评论 -
使用conlleval.txt对NER进行测试
参考https://svn.spraakdata.gu.se/repos/richard/pub/ml2015_web/assignment3.html使用conlleval.txt对命名实体识别的结果进行测试时,注意以下几点:1、只能接收BIO格式2、第一列为字符,第二列为gold-standard annotation,第三列为预测的标签;3、每一列数据之间用空格分隔。4、运行命令perl conlleval.txt < test.py...原创 2021-01-17 18:23:54 · 488 阅读 · 2 评论 -
11中常见的句法成分
标签含义NPnoun phrase-名词短语VPverb phrase-动词短语PPprepositional phrase-介词短语ADVPadverb phrase-副词短语ADJPadjective phrase-形容词短语SBARsubordinated clause-从属小句PRTparticles-助词INTJinterjection-感叹词CONJPconjunction phrase-连词短语LST...原创 2021-01-07 20:46:47 · 837 阅读 · 1 评论 -
pandas实现one_hot编码
import pandas as pdimport numpy as npdef one_hot(df, c): dummies = pd.get_dummies(df[c]) #关键点 # 每一列重命名 dummies.columns = [c + "_" + c1 for c1 in dummies.columns] df = df.drop(c,axis = 1) return df.join(dummies)def one_hot_encoding原创 2020-12-05 22:24:29 · 416 阅读 · 0 评论 -
k 折交叉验证
转载于:https://zhuanlan.zhihu.com/p/98532085#k 折交叉验证(k-fold cross validation)静态的「留出法」对数据的划分方式比较敏感,有可能不同的划分方式得到了不同的模型。「k折交叉验证」是一种动态验证的方式,这种方式可以降低数据划分带来的影响。具体步骤如下:将数据集分为训练集和测试集,将测试集放在一边将训练集分为 k 份...转载 2020-04-24 11:25:10 · 599 阅读 · 0 评论 -
Python学习之packet和IDE
Numpy一个用python实现的科学计算,包括:(1)一个强大的N维数组对象Array;(2)比较成熟的(广播)函数库;(3)用于整合C/C++和Fortran代码的工具包;(4)实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。Pandaspandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Panda...原创 2019-06-05 18:03:00 · 2330 阅读 · 0 评论