- 博客(241)
- 收藏
- 关注
原创 【天池训练营之大模型第一课】Data-juicer系列学练赛火热开启!
这次我们带来了开源的一站式大模型数据处理系统Data-juicer,它不仅提供了海量的数据处理算子和工具,还能让你轻松上手,玩转数据分析、清洗和生成!准备好迎接数据处理的新挑战了吗?Data-juicer系列学练赛带你从课程学习、优秀的Baseline方案学习、学习赛比拼、学习报告四个维度综合提升AI竞赛能力,从0到1实现进阶路径。任务二:进阶学习Baseline方案,通过Baseline从0到1进阶提升。任务一:了解基本课程知识,通过观看课程学习基础知识。任务四:提交学习报告,通过提交学习报告加深理解。
2025-02-20 10:05:19
176
原创 天池云上智能降雨量预测总决赛-优胜奖RIOFGROUP队攻略分享
参加本次比赛,一开始我们是希望通过获取到传统的集合预报和实况,将平时工作中运用的一些技术,例如:EMOS、类卡曼自适应滤波、BMA等方法搭建上去从而取得比较满意的结果,并不是说完全针对比赛想弄一套适合于它的东西,但是在加入到比赛中,发现很多想法需要适应变化,而且针对比赛应该有更富有技巧,因为比赛的场景更加的局限,可以在其中找到极致的最优,并不是说要象在现实预报技术中解决一个长时间的稳定性的预报问题。融合产品在短期时效内优势明显,但到中期,由于成员预报差异较大,因此对强降水有较高的空报率,需进一步订正。
2024-09-25 16:07:14
944
原创 CVPR2021 安全AI挑战者计划第六期赛道一第二名方案分享 (UM-SIAT队)
这么做的主要原因就是我们自己的损失函数收敛速度快,在untarget版本的攻击下仅需要10轮迭代便可使得模型的鲁棒性下降过程趋于稳定,对于鲁棒性变动不大的模型,使用dlr_loss的top3 target版本,每个target赋予10次迭代,进行攻击不会带来很大的收益,对于鲁棒性变化很大的模型,使用dlr_loss的top3 target版本进行攻击则会使得模型的鲁棒性大幅的下降,利用这个特点,我们设计了自适应的区分不同类型的模型的策略。1.本次比赛的梯度计算次数,所以攻击策略的收敛速度是很关键的。
2024-09-25 16:03:07
1238
原创 Spark“数字人体”AI挑战赛_脊柱疾病智能诊断大赛_GPU赛道亚军比赛攻略_triple-Z团队
希望我们的模型能够实际运用到现实生活中,因此在设计模型的时候就考虑了模型的高效性,并且我们实验表明该模型能够达到实时性的要求。我们设想以后患者的影像图片可以和我们模型的预测结果一并传输到医生的电脑上,医生可以根据模型的预测进行一些修正和调整,但就可以节省了大量的手动查询和定位等时间。相当于把“是什么”的问题转化成了“是不是”,感觉一定程度可以提高医生的工作效率。我们本次比赛主要做了如下几个工作:设计了一个简洁高效的定位+分类模型设计了合适的损失函数有效地训练模型充足实验证明模型的有效性和高效性。
2024-09-25 15:59:31
1030
原创 第三期安全AI挑战者计划-文本分类对抗攻击 第三名“我永远喜欢星野源”技术总结
通过本次比赛,认识了各个学校的大佬,他们的方法也让我们队有一种“恍然大悟”的感觉。例如我们在比赛中虽然想到了通过添加分隔符的方式来攻击模型,但是在文本的每个字符之间添加分隔符会显著增加词汇层面的杰卡德距离,而如果在样本末尾添加扰动字符就不会出现这些问题。再如,很多组的同学都提到替换“你”这个字对模型影响特别大(我们直接把这个字用停用词表过滤掉了),以及对新词替换次数的阈值应当有限制等问题,这些问题我们在比赛过程中没有发现。总的来说,这是一次非常有意义、对我们帮助很大的比赛。
2024-09-25 15:57:47
1163
原创 第一届POLARDB数据库性能大赛-亚军0xCC☣☢比赛攻略
这是我第三次参加天池程序设计类竞赛,虽然这次比赛的题目看似简单,没有过于复杂的业务逻辑,但往往越是简单基础的功能,越考验基本功。KV数据存储引擎看似简单一个map就能实现的功能,在遇上大规模数据情况下变得异常复杂。特别是这次比赛中用到了新的硬件设备——傲腾SSD,这块神奇的磁盘刷新我对存储设备的认识,也让我学习到了对新设备进行评估测试及在上面进行开发的完整过程。
2024-09-25 15:55:07
1001
原创 第二届Apache Flink极客挑战赛冠军比赛攻略_SkyPeaceLL队
生产价值:一些基于向量检索的应用具有相似性,在这样的思路和不断改进下,它们应该可以泛化成通用的应用架构和代码框架,最终或许也可以实现为某一类软件产品或平台。本方案中,代码框架设定了一个目标:对于新增的相似应用的数据集,不修改python代码,只需新增一个workflow config file(yaml文件),根据新数据集的基本属性以及数据结构的特性设置相应的配置即可。模型算法:如果数据集的特征向量已经经过很好的处理,那么降维模型的模型可选择MSE loss损失小且Inference性能高的模型即可。
2024-09-18 16:00:04
617
原创 eggtart队比赛攻略
为了进一步解决该问题,并尽可能多地捕捉视频中的主要人物,以及更充分地利用SOLOv2和STM的分割结果,我们提出了一种动态融合的无监督推理算法。对镜头固定,人物位移小的视频能够有较好的跟踪效果。我们发现,使用Dynamic Fusion模块,不但可以在一定程度上解决STM的误差累积现象,还可以对视频中途出现或消失的人物进行持续分割,因此可以应用于较长的视频片段。本次赛题核心为高清视频人像分割,属于无监督视频物体分割任务,要求在未提供任何额外输入的情况下,识别并定位视频中的主要人物,并精确到图像的每个像素。
2024-09-18 15:58:03
928
原创 天池Fashion AI 比赛失败经历分享
昨天是天池Fashion AI初赛Deadline, 成绩出来复赛都没能进,虽然结果很遗憾,但在比赛的过程中也接触到了不少的新东西,希望能在这里把我尝试过的方法都分享出来。作为对自己的总结,如果能让看到的人以后少踩点坑,那也算是一丢丢的贡献吧。由于各种原因,真的着手在这个比赛的时间大概就一个星期,前后只提交了几次。失败也是对"各种原因"的一个惩罚吧。水平极其有限(不然就不是失败经历分享了),欢迎分享 : )。不多废话,下面进入正题。
2024-09-18 14:44:13
799
原创 tair性能挑战赛攻略心得-Zzzzz
上述系统最终成绩为38.3秒,其中写阶段为29秒,读写混合阶段为9.3秒。我们介绍了所做的各类优化,但是其中一些优化,比如Bloom filter的引入并没有带来期望的性能提升,还需进一步思考。此外,我们仅利用了CPU的L3 cahe来缓存热点数据,至于在DRAM中缓存数据,我们仅在实现读无锁前进行了测试,得到了对性能没有提升的结论,在引入无锁操作后或许会更加有效,但是由于时间关系最后没有尝试。通过本次比赛,我们对AEP的性能特征有了更好的了解,如果未来还有类似机会,希望能取得更好的成绩。
2024-09-18 14:41:02
1218
原创 Flink垃圾图片分类优胜奖比赛攻略_贪吃的小香猪-148队
在模型的选择和训练上,由于资源的限制以及数据量的不足,像集成模型等都不能用到,只能在预训练模型上进行fintune,从数据增强等提高模型的泛化能力,也尝试了自己收集数据在本地做预训练,大概花了一周时间收集到了1万张50类的数据,但是最终没有时间去收集更多的数据,也是一种遗憾。使用Flink和计算平台Intel Analytics Zoo进行预测,值得一提的是,需要将图片以BGR的排列方式输入到模型中才能正确预测,并且预测要求500毫秒内完成预测,并且在进行预测前输入图片的预处理对预测的结果有很大的影响。
2024-09-18 14:31:03
412
原创 EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
本文介绍了EMR团队在Spark Native Codegen方向的探索实践,限于篇幅若干技术点和优化没有展开,后续可另开文详解,例如:1.极致Native算子优化2.数据转换详解3.Weld Dict优化大家感兴趣的任何内容欢迎沟通: )EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework_天池技术圈-阿里云天池。
2024-09-10 17:19:35
1281
原创 复赛总榜TOP1方案Champion Chasing Boy分享
安全生产一直是我们关心的一个方向,在经过前面图谱的构建、可视化数据的深度分析和挖掘之后,我们有了一定的基础,通过机器学习、人工智能的方式对海洋渔船流量进行预测,向安全监控进行赋能,帮助渔船调度、防碰撞预警、资源的合理安排等。渔船作业种类繁多,分布差异巨大,对渔船进行大数据画像,描绘知识图谱,以便于政府部门掌握渔船的 基本信息、状态监控和行为特点等。单属性特征,从速度、方向、经纬度等方面,由全局和局部两个方向,从分位数特征、分桶统计特征刻画渔船的基本画像。多属性特征,采用速度相关的交叉特征为主。
2024-09-10 17:16:42
766
原创 首届云原生编程挑战赛总决赛冠军比赛攻略_greydog.队
无论是初赛还是复赛,我觉得都是比较有趣的,特别是赛道一。这次比赛我学到了很多,比如socket编程、http协议、grpc、proto、docker相关知识,sse指令优化,同时也认识了一些朋友,对阿里云的技术以及云原生有了更加深刻的认识和了解首届云原生编程挑战赛总决赛冠军比赛攻略_greydog.队_天池技术圈-阿里云天池。
2024-09-10 17:12:47
1152
1
原创 参赛心得和思路分享:2021第二届云原生编程挑战赛2: 实现一个柔性集群调度机制
实现的限流类似于限流算法中的计数器算法,就是定义一个最大线程数,定义一个超时时间timeout以及当前活跃的线程数active,当active小于等于max时就不处理正常执行,大于max时等待timeout长的时间,等待里面的请求自动超时,在这期间如果有请求结束,则唤醒一个新请求,如果在这段时间里有请求没有结束,就让正在活跃的请求全部失败。成功数相同的情况下,按照最大 TPS 排名。我们计算出当前维护的队列中所有的请求的平均耗时,然后将其加上一点点,作为预测的超时时间,作为我们的最终策略。
2024-09-10 17:10:57
1195
原创 全球视频云创新挑战赛算法赛道第一名比赛攻略
关联比赛: “新内容 新交互”全球视频云创新挑战赛--算法挑战赛道视频物体分割(Video Object Segmentation)是计算机视觉最近两三年兴起的⼀个研究领域,其⽬的是从视频所有图像帧中把感兴趣的物体区域的分割出来。与视频物体跟踪不同,视频物体跟踪只要求得到每帧图像中感兴趣物体的包围框,⽽视频物体分割必须精确到图像的每个像素,因此是⽬前计算机视觉领域最难的任务之⼀。目前的视频物体分割可以分为三个类别:半监督视频物体分割、无监督视频物体分割和交互式视频物体分割。其中,半监督视频物体分割是给定用
2024-09-10 17:09:00
1439
原创 小白学深度学习:知识蒸馏研究综述
知识蒸馏是一种教师-学生(Teacher-Student)训练结构,通常是已训练好的教师模型提供知识,学生模型通过蒸馏训练来获取教师的知识。它可以以 轻微的性能损失为代价将复杂教师模型的知识迁移到简单的学生模型中。知识蒸馏与迁移学习思想较为相似,然而它们有以下四点的不同:知识蒸馏中的知识通常是在同一个目标数据集上进行迁移,而迁移学习中的知识往往是在不同目标的数据集上进行转移。知识蒸馏的两个网络可以是同构或者异构的,而迁移学习通常是在单个网络上利用其它领域的数据知识。
2024-08-30 16:29:27
1308
1
原创 Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
作者:沙晟阳本文是根据 Apache Flink 系列直播课程整理而成,由阿里巴巴高级开发工程师沙晟阳分享,主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。主要内容:Flink 开发环境的部署和配置运行 Flink 应用单机 Standalone 模式多机 Standalone 模式Yarn 集群模式。
2024-08-30 16:22:17
881
原创 【攻略】第三届数据库大赛创新上云性能挑战赛-高性能分析型查询引擎赛道-冠军
申请内存耗时太长的问题,是初赛的噩梦,一直无法得到解决,这导致白花花的内存,就这么放着,不敢多用,把数据直接落盘的方案居然比不落盘,放内存的方案更快,这让我再一次被PMEM的性能所震惊,骗子,都是骗子,不是说PMEM比内存会慢一点吗,这不科学啊;有效降低初始化成本;初赛快结束时,ADB赛道已经卷起了千层浪,大家突飞猛进的分数,让我猜到了些什么,咨询了一下导师,初赛代码不会进行review,所以带着一丝的罪恶感,我也丢弃了一部分数据(好吧,我承认,其实是大部分),无耻地在初赛排到了第一的位置。
2024-08-30 16:20:11
754
原创 人社大赛算法赛场解题思路分享+冠军+破灭刀锋
通过此次医疗保险基金反欺诈的比赛,详细了解了阿里天池平台的数据处理、机器学习平台的使用,通过机器学习平台的组件对数据进行可视化探索,发现数据中的价值,以及对业务理解的特点进行验证,从而为后续的进一步的特征处理、模型训练提供依据。我们在滑窗上选择的是15天、30天、60天的滑窗,分别统计短、中、长周期下的频次情况;从获取更多利益的核心点出发,在进行相应的诊断、服药开具的时候,倾向选择单价更高的药、同一类药品不断重复购买等更加快捷的方式,从而帮助实施欺诈的人员在金钱上获取更多的收益;
2024-08-30 13:09:59
878
原创 阿里云数智服务创新挑战赛总决赛铜奖比赛攻略_NJUSME队
以上就是我们结合赛题业务场景设计的算法框架,下图是总结示意。阿里云数智服务创新挑战赛总决赛铜奖比赛攻略_NJUSME队_天池技术圈-阿里云天池。
2024-08-30 13:08:15
1358
原创 机器学习算法常用指标总结
ROC(Receiver Operating Characteristic)翻译为"接受者操作特性曲线"。曲线由两个变量1-specificity 和 Sensitivity绘制. 1-specificity=FPR,即负正类率。Sensitivity即是真正类率,TPR(True positive rate),反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。
2024-08-26 13:51:47
823
原创 2021全国数字生态创新大赛-智能算法赛季军方案 乘风破浪的炼丹师队
以“生态资产智能分析”为课题,基于不同地形地貌的高分辨率遥感影像资料,利用遥感影像智能解译技术识别提取土地覆盖和利用类型,实现生态资产盘点、土地利用动态监测、水环境监测与评估、耕地数量与监测等应用。
2024-08-26 13:49:03
664
原创 赛题解析 | 初赛赛道三:服务网格控制面分治体系构建
另外还需要注意的一点,Pilot 加载的数据是只境不减的,因为在实际生产环境中,不可能将一个应用瞬间迁移到另一个 Pilot 上,因此已有的数据需要保留。这里的原因是应用的依赖是错综复杂的,如果我们把每个应用一个点表示,依赖用一条线表示,那么实际生产中,几乎是不可能形成孤岛的,原因是:每个应用依赖的服务是有重叠的,而且很多。由于得分公式是一个整体,单单提升一个是得不到好成绩的,因此要想拿好结果,建模是需要的,这样我们才能知道哪个才是最大的影响因子,或者甚至能够消除一个变量,那就更好了。
2024-08-26 13:47:24
572
原创 人社大赛算法赛题解题思路分享+第五名
俗话说,"特征没做好,参数调到老",特征工程可以说是最为重要的环节。初赛线下使用过smote过采样,使类别数量达到合理比例,缺点是增加样本数量会增加模型训练时间,而且只是成倍的增加样本权重。进行了部分手工调参尝试,效果不是很大,后期基本固定了参数,除了采样比例使用0.8,其它参数都使用了默认参数。本次比赛,“精准社保”的赛题为“基本医疗保险医疗服务智能监控”,由参赛队完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别。考虑过尝试不同的随机种子进行划分,计算量大,未进行尝试。
2024-08-26 13:45:21
826
原创 第三期安全AI挑战者计划-文本分类对抗攻击 第十名「你钉起来真好听」技术总结
加载官方的fasttext模型,读取其中的words,发现只有1000个左右的词(包括符号)较少,这可能使我们无法区分一个词对模型的影响是OOV的问题还是其他问题。再用这个模型去测试1000条测试集中的准确率(测试集全为辱骂样本,准确率=模型测出的辱骂样本/1000),当然由于测试集不可见,只能用if else判断一下区间,最后测得准确率为。最基本的思路是从官方提供的简易模型入手,计算出句子中每个词的重要性,在根据重要性排名借助简易模型的评分启发式地替换同义词(同义词从embedding相似的词中寻找)。
2024-08-26 13:43:32
581
原创 数智重庆.全球产业赋能创新大赛总决赛极客奖队伍比赛攻略_球球君
如上页PPT,针对不同的瑕疵具有不同的加权AP值,在特定类别上取得高分,如酒液杂质,对总分具有一定的影响。同时,不同瑕疵的尺度也是不一样的,需要控制模型的训练尺度。下面我们将介绍我们的比赛攻略,希望对大家有所帮助。主要还是根据数据的特定挑选模型和增加合适的数据增强手段。在瓶盖瑕疵中的喷码上,正常与异常喷码类别区分度较小,同时样本量少,分数波动大。对于酒液杂质,我们也设计了针对性的方案,以综合利用5张酒液杂质的照片训练模型。模型训练过程中,针对不同杂质做了针对性的数据增强。针对不同瑕疵,也利用了不同的模型。
2024-08-19 13:10:54
337
原创 大航杯智造扬中电力AI大赛RANK6思路总结
其他用户负荷分节假日和非节假日进行预测,节假日采用“倍比法”,P1i/A1=P2i/A2,其中A1和A2,分别代表本年和前年预测日前一个月非节假日的平均负荷,P1i和P2i分别代表本年和前年同类型日的值,例如十一的第2天。2)星期类型:负荷存在明显的周循环,周四的平均负荷最高,而周日的平均负荷最低。这里我们主要通过水平标记和垂直标记来识别异常小值和异常大值,即比较某个用户某天的负荷与其前、后两日的平均值或者前、后两周同一星期类型的平均值进行比较,并进行水平或垂直处理,即用相应的平均值进行代替。
2024-08-19 13:06:33
863
原创 天池工业AI-第10名思路分享
另外由于初赛中Stacking严重的过拟合,也让我在复赛中完全不敢使用,直到复赛最后两天,穷途末路回想起初赛的Stacking的确让我上了一波分,怀着赌一把的心态直接照搬的初赛的模型,最后的结果也算是为Stacking正名了吧。该方案保留了方案一中分TOOL_ID处理的步骤,针对特征与目标变量的相关性分析,我使用了皮尔森系数、互信息、相对距离、方差等一系列考察相关性的指标进行特征筛选,同样在XGBoost模型下,该方案有了小幅度的上升,但是在数量如此多的特征条件下,仍然无法较好的挖掘出重要程度高的特征。
2024-08-19 13:05:00
622
原创 第二届海南大数据创新应用大赛 - 算法赛道冠军比赛攻略_海南新境界队
此次比赛任务解决PDF竖排和折行问题后,使用普通的BERT预训练模型便可达到78+的准确度量级,并且该算法迁移到其它项目中同样具有落地性。数据增强和模型融合是有效的提升手段,模型融合这块线下预测acc有提高,线上预测性能没有提升,还需进一步探究。准确度和时间复杂度不可兼得,如何满足现实中速度和性能的平衡,还需进一步探究。作为海南本土的互联网企业,抱着积极学习和提升自我的态度,希望能在比赛中将公司多年积累的技术经验运用在人才数据智能服务体系的实际项目中,验证其落地性和实用性。
2024-08-19 11:42:43
1123
原创 鲁棒性目标检测 TOP2 方案分享
我们的计算设备是 8块 Tesla V100 32GB;😃本方案初赛排名TOP 6,复赛排名TOP 2,综合排名TOP 2;
2024-08-19 11:41:15
740
1
原创 机器学习算法: 朴素贝叶斯(Naive Bayes)
¶朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率,我们从一个摸球的例子来理解。我们有两个桶:灰色桶和绿色桶,一共有7个小球,4个蓝色3个紫色,分布如下图:从这7个球中,随机选择1个球是紫色的概率p是多少?先选择桶。
2024-08-12 11:34:02
1294
原创 IROS 2020 OCRTOC比赛总结 - Team PHAI Robotics
抓取任务中包含感知、决策、执行等多个功能模块, 而各个模块之间需要解决数据传递、流程控制等问题.与此同时, 本次比赛分两个阶段进行, 分别在官方提供的仿真平台(sapien, gazebo)以及真实机械臂场景下实现 table organization 任务. 针对两套环境的解决方案是相同的, 但是对于硬件模块的配置及控制却截然不同, 将同一套 pipeline 接入不同的硬件环境, 使其在两套环境下都能够顺利执行, 需要对代码进行大量重构甚至重新设计. 这显然不符合比赛时间限制及系统通用性的要求.
2024-08-12 11:29:00
946
原创 【参赛总结】第二届云原生编程挑战赛-冷热读写场景的RocketMQ存储系统设计 - Ninety Percent 战队
所以我就引入了“线程控制器”的概念。然后根据缓存块的余量大小,放到对应的余量集合中,余量大于等于2k小于3k的缓存块,放到2k的集合中,以此类推,余量大于最大消息体大小(赛题中为17K)的块,统一放在maxLen的集合中;剪切的阈值设置成了1k,由于数据大小是随机的,所以从宏观上来看,剪切下来的数据片的平均大小为0.5k,这意味着只需要使用0.5k的缓存,就能减少4k的io,是常规缓存效益的8倍,加上缓存部分的余量分级策略,会导致有很多碎片化的小内存用不到,该方案刚好可以把这些碎片内存利用起来。
2024-08-12 11:26:27
1046
原创 【数梦工场】【智慧航空AI大赛】比赛分享
第一赛季结束后,中间大约空了一周的时间,由于之前已经对问题比较了解了,用这一周的时间,数梦达文西 和 终结卡尔斯写了一下大领域搜索+整数规划的代码,跑了一下,得到一个578626.58的结果,这个结果算然比不上排行榜上同济梁哲教授的成绩,但也还算不错了,要是之前提交了也能在排行榜上排第二了。其中,按照题目的要求,联程乘客和中转第一班的乘客和航班是绑定的,即只要航班存在,就必然坐这个航班,人数确定。其中,当前一种航班座位对应的弧没有执行时,该航班座位的座位数为0,乘客数也是0,可以理解为座位数满。
2024-08-12 11:23:37
468
原创 CVPR 2021 ImageNet 无限制对抗攻击 TOP 4 (Advers) 方案分享
深度神经网络已经在各种视觉识别问题上取得了最先进的性能。尽管取得了极大成功,深度模型的安全问题也在业内引起了不少担忧,举例来说,深度神经网络很容易遭受输入上微小和不可察觉的干扰导致的误分类(这些输入也被称作对抗样本)。除了对抗样本,在实际场景中,深度模型遇到的更多威胁来自于非限制扰动对抗样本,即攻击者在图像上进行大范围且可见的修改,使得模型误识别的同时不影响人的正常观察。
2024-08-12 11:21:38
478
原创 FashionAI比赛-服饰属性标签识别比赛赛后总结(来自 Top14 Team)
PS:我是参加完比赛之后才看的,看完之后,万马奔腾.....,因为发现比赛中还是做了很多重复性的探索,而很多试验出来的结论都能从“如何做一个实用的图像数据集”这篇文章中找到结论,所以大家在以后做比赛中一定要关注官方发布的信息,这对比赛过程中创新点的探索和实施有启发作用。推荐大家看本篇博客之前,看一下数据集制作的方法,
2024-08-05 16:28:07
231
原创 首届中文NL2SQL挑战赛亚军比赛攻略_BugCreater
比赛只涉及单表查询,需要预测的有4部分:挑选的列(sel),列上的聚合函数(agg),筛选的条件(conds),及条件间的关系(cond_conn_op)。NL2SQL方向有很多有代表性的数据集,任务最合适的类比数据集就是2017年salesforce提出的WikiSQL数据集,包含8w多数据和2w多表格。下表是我们对样本集的一些参数的分析,包括问题长度, 表格列数目 列总长度 最多sel和最多cond数目,这些参数决定了模型的超参数如何设置。: 预测的SQL的执行结果与真实SQL的执行结果一致。
2024-08-05 16:26:20
594
原创 美年健康AI算法大赛--季军解决方案
缺失值预测填充的理论基础是特征之间并不是完全独立,这种情况在体检数据中非常明显,那么我们利用其他特征来预测当前特征,我们的原则是对于高重要性的特征,存在与之相关系数大于0.3的特征,并且非空值>800,我们就对其进行预测填充,预测填充的优势非常明显,将重要性不高的特征转化为好的特征,实际效果明显优于均值填充.过拟合方面我们除了通过限制模型参数和降维外,我们还采用average两个模型的方式降低过拟合程度,提高泛化性能.
2024-08-05 16:24:17
496
原创 盐城销量比赛 -- YR Tech团队比赛攻略
关联比赛: [印象盐城]数创未来大数据竞赛 - 乘用车零售量预测 查看更多内容,欢迎访问天池技术圈官方地址:盐城销量比赛 -- YR Tech团队比赛攻略_天池技术圈-阿里云天池
2024-08-05 16:22:24
237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人