- 博客(76)
- 收藏
- 关注
转载 NLP中的subword算法及实现
character-level模型试图使用26个字母加上一些符号去表示所有的词汇,相比于word-level模型,这种处理方式的粒度变小,其输入长度变长,使得数据更加稀疏并且难以学习长远程的依赖关系。word-level模型导致严重的OOV,而character-level模型粒度又太小,那么subword-level的处理方式就应运而生。将词划分成字词的形式,能够大大降低词典的大小。同时,这种word-level的处理方式并不能通过增大词表真正解决OOV的问题,因为再大的词典不能真正覆盖所有的词汇。
2023-09-19 16:48:22
262
原创 ROC曲线模板 积累1
医学实验import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_curve, auc ###计算roc和aucinputfile = "predict.csv"# data = np.loadtxt(open(inputfile), delimiter=',')pre = pd.read_csv(inputfile, sep=',', header='infer')pre =
2022-03-25 10:20:04
517
3
原创 截断数组(1) 前缀和
链接https://www.acwing.com/problem/content/3791/#include <iostream>using namespace std;const int N = 1e5 +10;int n,a[N],s[N];int ans;int main(){ cin >> n; for(int i=0;i < n;i++) { cin >> a[i]; s[i]
2022-03-25 10:18:38
188
原创 最短距离 前缀和
链接https://www.acwing.com/problem/content/1532#include<iostream>using namespace std;const int N = 100010;const int M = 200010;int a[M],s[M]; // 最后一直过不了是因为a[N],数据小了int n,m;// 需要倍长一下数据,表示两倍int main(){ cin >> n; for(int i=1;i
2022-03-20 09:37:23
121
原创 安迪种树 前缀和 差分
题目链接https://www.acwing.com/problem/content/738/#include<iostream>using namespace std;const int N = 100010;int a[N],s[N];int n,q;int l,r;int main(){ cin >> n >> q; while(q--) { cin >> l >>
2022-03-20 09:34:23
148
原创 dfs 单词接龙
链接https://www.acwing.com/problem/content/1119/#include<iostream>using namespace std;#define MAX_N 30int n;string vocab[MAX_N];string start;string max_string;int useCount;int match(string pre, string behind){ int num = min(pre.size(),
2022-03-20 09:06:54
116
原创 dfs 乘积最大
链接https://www.acwing.com/problem/content/description/1028/#include<iostream>#include<cstring>#include<string>using namespace std;const int N = 20;string str;int n,k;int ans;int mark[N];void dfs(int mark[],int m) // mark记录在哪里
2022-03-20 09:06:41
116
原创 CSP 交通规划
#include <iostream>#include<cstring>#include<queue>using namespace std;// 想到了方法spfa,但是感觉不知道怎么构造之后那个判断条件,以及不知道这种论证是否成立。const int N = 2e5 + 10,INF = 0x3f3f3f3f; // 无向图,两倍int n; // 总点数int h[N], w[N], e[N], ne[N], idx;
2022-03-20 09:06:24
316
原创 CSP 通信网络 100分
// 如果不连通,就没有是0// 连通的话。不能用拓扑序列。 最短距离也不可以,因为每一个点都要考虑到。// 第一个点到所有点的最短距离也不用考虑// 最小生成树更不用考虑了// 用dfs。// 能遍历通的话就是可以的,如果不行,那就不行。 真的是dfs。 图上的dfs// 接收也是一种方法的话,是不是可以构建反向的一个图,如果能够到达所有的,那也算。#include <iostream>#include <cstring>using namespace st
2022-03-20 09:06:08
184
原创 CSP 元素选择器 30分
#include <iostream>#include <cstdio>using namespace std;const int N = 110;string text[N];int n,m;string str;int ans[N];int main(){ cin >> n >> m; getchar(); for(int i=0;i < n;i++) getline(cin,text[i]) ; /
2022-03-20 09:05:50
112
原创 CSP 字符画
#include <iostream>using namespace std;const int M = 2000, N = 1200;struct Color24 { unsigned char R, G, B; Color24() { R = 0; G = 0; B = 0; } Color24(int r, int g, int b) : R((unsigned char) r), G((uns
2022-03-20 09:05:36
159
原创 CSP CIDR合并 40分
TODO: 用pair做来排序会更方便#include <iostream>#include <unordered_map>#include <algorithm>#include<vector>using namespace std;const int N = 1e5 + 10;int n;string str;struct IP{ string ips; int pre;}ip[N];int str_to_in
2022-03-20 09:05:22
121
原创 CSP 化学方程式 50分
没有考虑括号嵌套,TODO:重合的太多了,代码风格得改#include <iostream>#include <unordered_map>#include <cstring>#include <vector>using namespace std;// 对于查找问题,unordered_map会更加高效一些,因此遇到查找问题,常会考虑一下用unordered_mapint n;string str;string l,r;unorde
2022-03-20 09:05:03
258
原创 CSP Markdown渲染器 40分
#include <iostream>#include <vector>#include <cstring>using namespace std;const int N = 20 * 1024 * 1204 + 10;char str[N];vector<string> strs;vector<string> new_strs;int check_kong(string &s){ for(auto s1:s
2022-03-19 21:35:27
787
原创 CSP 星际旅行 75分
#include <iostream>#include <vector>#include <cstring>#include <math.h>using namespace std;const int N =2100;int n,m,r;// vector<double> yuanxin;// vector<double> point;double yuanxin[N];double point[N][N];
2022-03-19 21:30:08
167
原创 CSP 食材运输 暴力25分
/*题意一开始没有完全理解所说的u+1 = v就已经确保了第一是最大,第n是最小! 可恶!*/#include <iostream>using namespace std;const int N = 1010;int n,m,k;int needed[N][N];int dis[N][N];int ans;int main(){ cin >> n >> m >> k; for(int i=1;i
2022-03-19 21:25:30
217
原创 CSP 校门外的树 暴力搜索30分
#include <iostream>using namespace std;typedef long long ll;const int N = 100010,MOD = 1e9 + 7;ll a[N]; // 有障碍物的地方ll b[N]; // 记录下标int n;ll sum;void dfs(ll dep,ll ans){ if(dep == n-1) sum = (sum + ans) % MOD; for(int i
2022-03-19 21:20:42
176
原创 CSP 邻域均值 二维前缀和
#include <iostream>#include <vector>#include<algorithm>using namespace std;const int N = 6100; // 开610会卡90分int n,l,r,t;int a[N][N];int s[N][N];int tmp;int sum;int main(){ cin >> n >> l >> r >>
2022-03-19 21:18:46
125
原创 CSP 脉冲神经网络
检查了很多遍都觉得没有问题,不知道为什么提交到官网就WA了#include <iostream>#include <cstring>#include <stdio.h>using namespace std;const int MAXN = 2e3 + 10,M = 2010;int N,S,P,T;double dt;int rn;double v1,u1,a1,b1,c1,d1;int h[MAXN],e[MAXN],ne[MAXN],id
2022-03-19 21:16:57
2136
原创 基础算法练习
双指针的做法#include<bits/stdc++.h>using namespace std;const int N = 1e5+10;int n,s;int S[N];int a[N];int lens = N;int main(){ cin >> n >> s; for(int i=0;i < n;i++) { cin >> a[i]; S[i] = S[i-1] +.
2022-03-19 21:08:44
111
原创 CSP 期末预测之最佳阈值
#include <iostream>#include <vector>#include<algorithm>using namespace std;const int N = 1e5 + 10 ;int m;int s0[N],s1[N];int ans;struct SCORE{ int y; int res; bool operator < (const SCORE &s) {
2022-03-19 13:59:01
250
原创 CSP 磁盘文件操作
debug#include<bits/stdc++.h>using namespace std;const int N = 2010;int n,m,k;struct MEM{ int ids; int state; // 占用:1,未占用:0 int num;}mem[N];int t;int id,l,r,x;int p;int main(){ cin >> n >> m >> k;
2022-03-19 11:17:43
1087
1
原创 CSP 登机牌条码(40分)
#include<bits/stdc++.h>using namespace std;const int N = 1010;int w,s;string str;vector<int> num;// int num[N];int sum;int ne;int coded(int h,int l){ return 30*h + l;}int main(){ cin >> w >> s; cin &g
2022-03-19 10:31:16
279
原创 CSP交通规划
#include <iostream>#include<cstring>#include<queue>using namespace std;const int N = 1e5 + 10,INF = 0x3f3f3f3f;int n; // 总点数int h[N], w[N], e[N], ne[N], idx; // 邻接表存储所有边int dist[N]; // 存储每个点到1号点的最短距离bool st[N]
2022-03-16 16:12:39
266
原创 317号子任务 CSP
#include <iostream>#include <cstring>#include <queue>#include <algorithm>using namespace std;const int N = 10010,M = 20010,INF = 0x3f3f3f3f; // 无向边,边要取双倍int n,m,k;int dist[N]; // 排序后取前k个。 // 存储每个点到x号点的最短距离int h[N], w[M].
2022-03-15 15:08:24
212
原创 CSP 序列查询新解 202112-2
#include <iostream>#include <cmath>using namespace std;const int M = 1e5 + 10;typedef long long ll;ll n,N;ll A[M];ll r;ll ans;ll fxall,gxall;// r 是间隔的意思,也就是几倍的等差数列计算。 公差是1ll Sum(ll num) // 这里可以直接用r{ ll n1 = num / r; ll
2022-03-13 17:23:43
551
原创 大数据架构Spark 进阶
案例一:找出最受欢迎的电影。数据样本一览:<版本 A>popular-movies.pyfrom pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("PopularMovies")sc = SparkContext(conf=conf)lines = sc.textFile("hdfs:///u.data")movies = lines.map(l
2021-12-20 19:06:08
493
1
原创 大数据架构——词频分析 | 文本搜索(Spark 版)
from pyspark import SparkContextdef main(): sc = SparkContext(appName='SparkWordCount') input_file = sc.textFile('hdfs:///Input.txt') counts = input_file.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b
2021-12-20 19:05:36
2080
原创 GPU 显存不足时的Trick
降低batch size这应该很好理解,适当降低batch size, 则模型每层的输入输出就会成线性减少, 效果相当明显。选择更小的数据类型一般默认情况下, 整个网络中采用的是32位的浮点数,如果切换到 16位的浮点数,其显存占用量将接近呈倍数递减。精简模型在设计模型时,适当的精简模型,如原来两层的LSTM转为一层; 原来使用LSTM, 现在使用GRU; 减少卷积核数量; 尽量少的使用 Linear 等。数据角度对于文本数据来说,长序列所带来的参数量是呈线性增加的, 适当的缩..
2021-12-01 20:50:59
1096
原创 PyTorch Hub预训练模型直接调用
PyTorch Hub的使用简单到不能再简单,不需要下载模型,只用了一个torch.hub.load()就完成了对图像分类模型AlexNet的调用。import torchmodel = torch.hub.load('pytorch/vision', 'alexnet', pretrained=True)model.eval()下面让我们来看看每个应用的实例。1、查询可用的模型用户可以使用torch.hub.list()这个API列出repo中所有可用的入口点。比如你想知道PyTorch H
2021-12-01 20:42:45
3197
原创 手把手实现线性回归/岭回归/机器学习
实验1:线性回归及岭回归介绍在本实验中,你将实现线性回归及岭回归并了解其在数据上的工作原理。本次实验需要用到的数据集包括:ex1data1.txt -单变量的线性回归数据集ex1data2.txt -多变量的线性回归数据集评分标准如下:要点1:计算损失-------------------------------(20分)要点2:单变量线性回归梯度下降----------(20分)要点3:数据标准化----------------------------(20分)要点4:多变量线
2021-11-30 19:12:28
401
1
原创 银行家算法实现(操作系统)附代码
实验目的 银行家算法(Banker’s Algorithm)是一个避免死锁(Deadlock)的著名算法,是由艾兹格·迪杰斯特拉在1965年为T.H.E系统设计的一种避免死锁产生的算法。它以银行借贷系统的分配策略为基础,判断并保证系统的安全运行。 在银行中,客户申请贷款的数量是有限的,每个客户在第一次申请贷款时要声明完成该项目所需的最大资金量,在满足所有贷款要求时,客户应及时归还。银行家在客户申请的贷款数量不超过自己拥有的最大值时,都应尽量满足客户的需要。在这样的描述中,银行家就好比操作系统,资金就
2021-11-30 18:45:55
2473
原创 2021冬机器学习考试
机器学习考试选择题(很简单)发展的三个时期,加了一个推导期(错)软间隔c的意思贝叶斯最大化什么分类问题回归问题adaboost对做错的样本更关心等等记不全名词解释机器学习梯度下降CNN集成学习计算题ROC AUC贝叶斯下不下雨决策树聚类(四轮)简答题什么是过拟合和欠拟合,例子svm的目标和对偶问题pca和lda的区别综合题十分类的问题CNN过程描述对机器学习中数据和模型的认识(英文)...
2021-11-30 18:42:44
227
原创 CSP/CCF第三题
202109-3 脉冲神经网络202104-3 DHCP服务器202012-3 带配额的文件系统202009-3 点亮数字人生202006-3 Markdown渲染器201912-3 化学方程式201909-3 字符画201903-3 损坏的RAID5201812-3 CIDR合并201809-3 元素选择器201803-3 URL映射201712-3 Crontab201709-3 JSON查询201703-3 Markdown201612-3 权限查询201609-3 炉石
2021-11-18 19:29:07
415
原创 学生类(静态数据成员和静态成员函数,即数据的共享)C++
【问题描述】定义一个类Student,要求使用静态数据成员或静态成员函数计算全班学生的《计算机导论》课程的总成绩和平均成绩。请同学们自行设计该类。【提示】静态数据成员:static int total; 表示所有同学成绩总分静态成员函数:static void Average(int sum){} 计算sum个学生的平均成绩,主函数在调用的时候采用Student::Average(n)的形式。【输入形式】学生姓名 课程成绩【输出形式】总成绩和平均成绩【样例输入】Zhang 82Li
2021-11-17 21:49:48
962
原创 学生成绩高低(友元函数,即数据的保护) C++
【问题描述】在上一题的基础上,设计一个友元函数,比较某两个学生《计算机导论》成绩的高低【提示】友元函数声明如下:friend char Compare(const Student s1,const Student s2);【输入形式】学生姓名和分数【输出形式】分数高低的结果( > 或 < 或 =)【样例输入】Zhang 92Wang 89【样例输出】>#include<iostream>using namespace std;class Stud
2021-11-17 21:49:11
1504
原创 椭圆类——3 (类的复杂设计)C++
【问题描述】(1)在前一周作业题(椭圆类——2)的基础上,增加一个Point类(点类),包括私有成员横纵坐标x和y(均为int型),以及参数带默认值的构造函数Point(x=0,y=0);(2)给Point类增加拷贝(复制)构造函数Point(Point& p);(3)增加析构函数~Point();输出"Point xigou"以及待析构的点的横纵坐标。(4)增加取横纵坐标值的函数int GetX(); int GetY();(5)删除Ellipse类原来的四个数据成员,重新修改为 Poi
2021-11-17 21:48:01
463
原创 两点的距离(类的组合成员、冒号语法)C++
【问题描述】定义一个坐标点类Point和求两点距离的距离类Distance,在每个类的构造函数函数体里加上cout输出相应的提示语句,以便观察构造函数被调用的顺序。【注意】请勿修改类的设计和主函数,只需要在类体外补充各个成员函数的具体实现类的设计和主函数如下:class Point{public:Point(int xx,int yy);Point(Point &r);int GetX();int GetY();~Point();private:int x,y;};cl
2021-11-17 21:46:37
1380
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人