- 博客(361)
- 资源 (1)
- 收藏
- 关注
原创 Kaggle-Store Sales-(回归+多表合并+xgboost模型)
1.由于是多表,所以要先把其他表与train合并。根据train和其他表共有的某一列特征值中,选择一个共有列作为key然后进行合并。由于test的数据处理后也不能让行有变化,所以进行合并之前,其他表要先进行去重。2.合并后进行缺失值处理,使用平均值还是众数还是前后值要根据不同情况来分析,就比如油价就应该按前后值填充。2.对xgb_model训练的时候要先把Y_train取log,最后X_test要取exp。给出很多商店,给出商店的类型,某时某刻卖了多少销售额。给出了油价表,假期表,进货表。
2025-04-14 06:06:12
275
原创 Kaggle-Disaster Tweets-(二分类+NLP+模型融合)
6.堆叠模型融合,把三个模型输出答案作为次级模型的输入,再进行训练,预测出结果。4.投票模型融合,把三个算法的最佳参数下的模型进行融合训练,求出预测分数。2.随机森林模型RandomForestClassifier,设置本模型的网格搜索参数,对rf进行超参数优化。1.逻辑归回模型LogisticRegression,设置本模型的网格搜索参数,对lr进行超参数优化。5.加权模型融合,只是在投票模型的基础上,为每个模型分配一个权重。当基模型1和基模型3的预测概率较高时,样本更可能属于类别1。
2025-04-11 19:20:09
273
原创 Kaggle-Digit Recognizer-(多分类+卷积神经网络CNN)
1.首先把数据从dadaframe转换成numpy,数据类型改为float32,并且并且展开为1维的28×28×1的形状,也就是28宽28高灰色通道。并且都要/255,因为灰度值是0-255,把灰度值压缩成0-1。Sequential(),构建顺序模型,选择按层顺序堆叠。添加卷积层,32个卷积核,内核为3×3,线性处理。添加卷积层,32个卷积核,内核为3×3,线性处理。添加池化层,池化窗口2×2,步长为2。添加池化层,池化窗口2×2,步长为2。128个全神经元,relu激活函数。
2025-04-10 19:14:25
369
原创 Kaggle-Housing Prices-(回归+Ridge,Lasso,Xgboost模型融合)
给Ridge模型传入数据进行训练,求出测试集的答案,并且求expm1,这是因为前面我们训练的时候把Y标签的数据已经取了log,所以这里要expm回来。5.建立Xgboost模型,首先使用DMatirx构造出xgboost专属的train和test数据集,用xgb_cv交叉验证来训练 xgboost模型求出最佳迭代参数,然后传入xgb.XGBRegressor模型。7.模型融合,分别求出ridge、lasso、xgb、xgb_r_l,的预测结果,分别分配权重然后求出融合结果。避免数据炸了,消除量纲差异。
2025-04-07 03:03:58
227
原创 Kaggle-Spaceship Titanic-(二分类+xgboost)
先看数据:PassengerId、HomePlanet、CryoSleep 、Cabin 、Destination 、Age 、VIP 、RoomService、FoodCourt、ShoppingMall、Spa、VRDeck、Name 、Transported。发现deck中包含3个类别,3个类别又分别有不同的数值,所以需要先把cabin拆成3个类型。有n个人,有一些特性,有一些人被传送了,有些没有。求出test的传送情况。查看train数据中的各个特征值,如果不是数值型的,需要进行独热编码。
2025-04-06 03:07:06
246
原创 Kaggle-Titanic-(二分类+随机森林)
对train数据处理后,分成X_train, X_test, Y_train, Y_test,train作为训练数据,test作为测试数据。1.先看数据:surviva、pclass、sex、Age、sibsp、parch、ticket、fare、cabin、embarked。发现pclass、sex、Age、sibsp、parch数值较少,且相关性大,适合作为特征值。通过查看train数据特性,发现有些特征值的值太过杂乱,并不适合作为特征值,直接drop掉。2.处理数据空缺,多记忆相关函数。
2025-04-06 02:52:12
251
原创 2023JSCPC江苏省大学生程序设计大赛
比如第一次需要加3个,那我的sum就累加3,下一次遇到需要变的时候,首先我先看看之前已经累加的sum,我加上sum以后是不是和b[i]一样,如果不一样,该加多少就加多少,同时累计到sum中。就是给你一个a字符串和b字符串,每次你可以选择a串的一个后缀,使得这个后缀的所有字母都加k,也就是每个字母加k,比如字母’x’+1 = y,‘x’+3 = a.问你最少可以多少次,是的a串变成b串。给你n个字符串,其中任意两个字符串的相似度为:两个字符串相同的子串的长度。我们的做题顺序:I ,J,H,A,F,L。
2025-03-18 20:47:02
577
原创 杭电多校-单峰数列-(线段树维护最值和标记)
对于一个整数数列,如果其先严格递增,然后在某一点后严格递减,我们称这个数列为单峰数列(严格递增和严格递减的部分均要是非空)。[l,r]都加上x,[l,r]是否全部相同,[l,r]是否为严格升序,[l,r]是否为严格降序,[l,r]是否为单峰数列。
2024-08-11 14:34:13
321
2
原创 2023蓝桥杯省赛
E动态规划,定义dp[i][j]为用到第i个,结尾为j最少要删多少个。J 数据小的时候暴力枚举选择哪一天边可以,数据大直接-1。B枚举0的个数,公式求一下。A直接暴力枚举 答案235。G 维护一个后缀即可。H 记录左右位置是谁。
2023-04-08 18:28:12
1449
4
原创 2021南京-Crystalfly-(树形dp+贪心选数)
给你一个树,每个点有个权值,当你走到a点时,所有a的临界点spot的值在vb[spot]秒后飞走。现在问你最大可以拿到多少权值。vb数组的每个值为[1,3]。多多思考,多多总结。
2022-11-10 22:18:09
432
原创 牛客多校-Link with Bracket Sequence I-(子序列构造原序列问题+差值dp问题)
就是给你最多100个物品,每个物品有个质量和价值,然后你最多可以操作s次,可以让某个物品的质量翻倍。现在让你选择一些物品,分到两个集合,分完之后,两个集合的体积要一样。然后你获得的价值就是两个集合所有物品的价值之和。就是给你一个长度为n的括号序列,现在问你有多少长度为m的合法括号序列,使得给出的序列是构造的序列的一个子序列。就是给你一个都是小写字母字符串t,现在求有多少长度为m的字符串s,满足t是s的一个子序列。
2022-10-30 22:34:31
635
原创 2018南京多校-Taotao Picks Apples-(预处理)
J题意:就是给你一排n个苹果,每个苹果有个大小,现在小A就从第一个开始拿,如果这个苹果是第一个苹果,那么必拿,如果这个苹果比上一次拿的大,那么必拿。现在给你m次独立的查询,每次让va[a] = b,然后问你小A会拿多少个苹果。思考:代码:总结:多多思考,注意细节。
2022-10-24 21:56:59
167
原创 2021昆明-Easy String Problem-(正难则反+莫队)
就是给你一个长度为n的字符串,然后给你m次查询,每次给你一个l和r,现在你可以删除任意包含[l,r]的子序列,问你删除后,可以产生多少种不同的字符串,空串也算一个。多多思考,相信自己。
2022-10-22 22:22:48
229
原创 CFdiv2-Pie Rules-(线性dp+博弈状态转移)
就是给你n个数字,Alice和Bob玩一个游戏,首先有个特权,这个特权就是可以让当前的值给自己或者给对方,如果给自己,那么特权转移到对方,如果值给对方,那么特权还是自己的。现在Bob先有特权,问你每个人的得分是多少,当然每个人都会按照自己得分最高的情况去拿。多多思考,多多把dp的转移,和博弈的状态想清楚。
2022-10-20 21:09:24
141
原创 CFdiv2-Intersection and Union-(线段树+转化求贡献)
就是给你n个区间,每个区间包含一段连续的值,然后这就是一个集合。现在有个式子|(((S1 op1 S2) op2 S3) op3 S4) …opn−1 Sn|。然后其中的op,分别可以是∪:两个集合元素的并集。∩:两个集合的元素交集。⊕:两个集合中元素只在某一个集合中出现的所有元素。种情况中,把答案的总和求起来。对于那个公式,就是问你经过顺序操作后,整个集合中还有多少元素。都有3中选择,现在问你3。
2022-10-19 20:45:52
274
原创 2019CCPCFinal-Russian Dolls on the Christmas Tree-(树上启发式合并或LCA维护贡献)
就是给你一个树,每个点的编号i就是一个大小为i的小盒子,i可以装进i+1里面,但是不能直接装到i+2里面,因为少了一个i+1。现在就是问你,对于每一个子树这个子树的所有的盒子,能合并的都合并后,会剩下几个盒子。
2022-10-16 21:49:09
197
原创 CFdiv3-Sending a Sequence Over the Network-(线性dp)
要么放在这一段数字的前面或者后面。然后每一段都放好之后,把你分成的这些段数字再合起来形成了b数组。现在给你b数组,问你这个b数组是否可以由某个a数组拆分再合并之后得到来的。就是说有一个a数组,然后你可以把这个数组分成任意段,然后每段有x。多多思考,多多联想。
2022-10-14 21:50:04
301
1
原创 CFdiv3-Multi-Colored Segments-(线段树+multiset)
就是给你n个线段,每个线段有个a,b,c,代表左端点,右端点,线段的颜色。现在问你每个线段距离其他颜色的线段中最小的距离是多少。如果有点交叉那么距离就是0。多多思考,不用觉得题目难,思考思考思路,一个不行再换,这样可以积累许多以后可能用到的操作。
2022-10-14 21:20:34
430
原创 2022上海-Expenditure Reduction-(二分预处理)
就是给你一个A字符串和一个B字符串,你可以把A字符串删去一些前缀和后缀,然后B字符串仍然是A字符串的一个子序列。现在问你A串最多可以删去多少,把删掉后的A串输出。特别是那种经常暴力枚举查询的,就可以先去预处理试试,然后再查询就很方便了。
2022-10-13 13:16:50
276
原创 2022上海-My University Is Better Than Yours-(缩点+拓扑)
就是说一共有n个大学,现在给你m种排名。现在定义x学校好于y学校,只要存在{s1, s2, …, sk} (k≥2)。s1=x, sk=y。看清题意,仔细思考,考虑所学的所有方法。
2022-10-12 22:25:18
437
原创 2020南京-Monster Hunter-(树上背包)
就是给你一棵树,你刚开始可以去掉i个点(i ∈ [ 0 , n ] ),然后计算剩余结点的花费,每个结点的花费为这个子树中没有被删的点的权值。那么现在问你不同的i花费分别是多少。
2022-10-12 21:46:49
145
原创 2022杭州-IHI‘s Homework-(组合数+球盒问题)
然后给你k次询问,每次询问把第a个数变成b后,这x个未知数有多少种不同的分配方案。,和一个数字s,然后这n个未知数的和
2022-10-06 20:19:39
211
2
原创 2016CCPCFinal-Pandaland-(无向图的最小环)
就是在一个二维平面上,给你m条边,每条边给你两个端点和一个边的权值。现在让你找出一个权值和最小的环。
2022-10-05 21:20:02
154
原创 2021台湾-Flip-(线段树区间合并的理解)
就是给你一个01数组,然后给你m次操作,每次要么是让[l,r]这段区间的0和1都翻转,要么是查询[l,r]这段区间有多少好的子区间。好的区间定义为,这个区间的0和1是间隔的,也就是没有连续>=2个的0或者1。就是给你一个数组,然后又m次操作,每次操作要么是让第x个数变成y,要么是查询[l,r]区间最大值是几,并且有多少个。
2022-10-04 14:52:33
186
原创 2021台湾-Garden Park-(线性dp+路径计数)
就是给你n个点,n-1条边。然后每条边有一个权值,现在问你一共有多少漂亮的简单的路径,定义漂亮的简单路径为,每个点只能走一次,并且边的权值是要上升的。多多思考,深入思考,试一试。
2022-10-03 12:35:48
159
原创 2022ICPC网络赛第二场
PTA 然后每次操作,你可以选择一个数删掉或者不删,然后再让其中一个数变成任意其他的数。但是不能操作第一个数和最后一个数。现在让你输出操作次数分别为[1,n]的答案。就是给你一个n(n
2022-09-29 22:09:39
489
原创 2022ICPC网络赛第一场
现在定义一个好数为:其二进制表示中,1的个数和后缀0的个数一样。现在给你T次查询,每次问你a到b中是否有这样的数。一定要把题目搞清楚先,先不听思路,多人多思考思考。
2022-09-18 12:57:38
523
原创 洛谷-纯粹容器-(概率期望+组合数+容斥)
就是给你n个容器,每个容器一个强度,小A会进行n-1次操作,每次随机选择两个相邻未被击倒的容器进行决斗,强度低的会被击倒并移除队伍。现在问你每个容器存活的轮数的期望。多多积累经验,多多思考。
2022-09-15 21:43:14
445
原创 2020沈阳-The Boomsday Project-(线性dp+双指针转移理解)
就是小A会借自行车,给你m个a和b,在第a天借b次。然后借一次的价格是k,不过还有n
2022-09-15 17:19:03
194
2
原创 2022CCPC网络赛
就是给你一段区间a到b,和权值c,然后问你有多少x,使得区间[a,b]中所有是x的倍数的数组成了一个集合set,然后这个集合的所有子集的价值总和 = c。一个集合的价值就是集合内所有数的和。然后T组测试,T=100,1 ≤ L ≤ R ≤ 1e12,1
2022-09-13 12:18:01
634
1
原创 Acwing-Hankson的趣味题-(dfs求因子+质数,因子,数字大小的各种关系的整理)
就是给你多组测试样例,每次给你a0,a1,b0,b1,让你找出有多少不同的x,满足gcd(a0,x)=a1并且lcm(b0,x)=b1。n/ln(n) = 1e7,对于枚举出的因子一共T。以后最好搞懂那些优化复杂度的各种算法。log(n),加起来就是O(T。
2022-09-12 22:32:34
271
3
原创 CF-Letter Picking(区间dp+博弈论)
给你一个长度2000的字符串。然后每个人轮流每次从字符串的头或者尾取一个字符,然后添加到自己的字符串的前面。如果字符拿完了就停止,如果谁的字符字典序小谁赢,输出谁赢,或者平局。多tm思考思考,把所学的知识结合起来,多动手看看,翻翻博客。
2022-09-11 20:41:54
518
原创 2020绵阳-Game of Cards-(博弈论+搜索)
就是给你0,1,2,3,这四个数的个数。然后你每次可以选择两个数加起来,不过加起来的值要
2022-09-08 15:46:59
448
原创 CFdiv2-Two Pizzas-(预处理+状态压缩)
一个人满意的条件是,选择的披萨中包含的所有数字,可以组成自己喜欢的那一组。现在让你选择两个披萨,尽量让最多的人满意,当满意人数相同的时候,尽量花的钱最小。n和m都是1e5,不过每个人喜欢的一组数字最多9个,每个数字也
2022-09-08 14:13:54
392
原创 2020绵阳-Joy of Handcraft-(调和级数+线段树)
t+t]亮,也就是先亮t秒再关t秒再亮t秒…然后亮的时候亮度为x。现在问你从1到m每个时间点亮的灯泡中亮度最大的亮度是多少,也就是最大的x是多少。就是给你n个灯泡,一共m个时间。每个灯泡有两个参数t和x,灯泡会在[2k。多多思考,联想联想相关的知识。
2022-09-07 21:19:46
169
原创 CFdiv2-Playlist for Polycarp-(二进制枚举+组合数+记忆化搜索或者暴搜)
就是给你n个音乐,每个音乐有个时间和曲调。然后一共总时间为m,现在问你有多少种不同的组合使得选择的音乐总时间为m,并且任意两个音乐之间的曲调不能相同。数据范围都很小,同时取模。多多简化问题,把复杂的问题简单化多多思考。
2022-09-07 13:34:00
111
原创 ABC-Throwing the Die-(期望递推+可取最大值的期望)
就是给你一个筛子,然后你最多可以晒n次,比如你第i次晒到x,你停止得分为x,要么继续抛。小A会尽量让自己的得分值最大。问你这个最大值的期望是多少。多多积累模型吧,遇到的模型越多越好。
2022-09-06 21:47:36
282
原创 ABC-Warp-(dp状态的选择+记忆化搜索)
就是在一个平面图上,刚开始在(0,0)点,然后给你6个数a,b,c,d,e,f。每次可以走到(x+a,y+b),(x+c,y+d),(x+e,y+f)。然后给你m个障碍物的下标。现在问你走n次,一共有多少不同的路径。多多思考,多换种状态,当想的差不多的时候,如果出问题就试着去转化转化。
2022-09-06 17:45:58
251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人