
Datawhale
文章平均质量分 85
会飞的Anthony
北京邮电大学在读博士,曾先后任NLP算法工程师、JAVA全栈开发工程师。
展开
-
基于星火大模型的群聊对话分角色要素提取挑战赛之Baseline(Datawhale AI 夏令营)
在基于星火大模型的群聊对话分角色要素提取任务中,我们利用大语言模型对群聊对话数据进行深度分析和信息抽取,取得了显著成果。通过设计适合的prompt模板,结合规范化的数据处理和字段检查,确保了提取结果的准确性和完整性。未来,进一步优化特征工程和模型集成,将为提升信息提取的精度和效率提供更多可能性。这不仅有助于提升企业的客户服务质量,还将带来更多商业价值和竞争优势。欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。原创 2024-07-20 07:45:00 · 514 阅读 · 0 评论 -
分子性质预测挑战赛之特征工程与集成学习(Datawhale AI 夏令营)
通过本次分子性质预测挑战赛的探讨,我们从基础的CatBoost模型出发,逐步引入了特征工程和模型融合等优化方法。在特征工程方面,我们深入挖掘了InChI字符串中的信息,提取了丰富的分子结构特征;在模型优化方面,我们尝试了不同的机器学习模型并进行了融合,显著提升了预测性能。特别是通过Stacking方法,我们有效地整合了多种模型的优势,进一步提升了整体表现。希望这些实践经验能为大家在数据科学和机器学习领域的研究和应用提供有价值的参考。持续尝试和创新,将是我们不断进步的动力。原创 2024-07-19 07:45:00 · 1720 阅读 · 0 评论 -
分子性质预测挑战赛之Baseline(Datawhale AI 夏令营)
在这段代码中,我们首先导入所需的库,包括numpy、pandas、catboost等用于数据处理、特征工程和模型训练。然后,我们读取训练和测试数据集,删除训练集中与降解能力相关的字段,并删除测试集中非空值小于10个的列。接着,使用RDKit将SMILES字符串转换为分子对象列表,再转换为字符串列表,并使用TfidfVectorizer计算TF-IDF值。最后,通过定义一个交叉验证函数来训练模型并进行预测。原创 2024-07-18 07:45:00 · 782 阅读 · 0 评论 -
电力需求挑战赛知识点(Datawhale AI 夏令营)
在电力需求挑战赛中,我们通过模型堆叠方法有效地提升了预测性能。堆叠方法通过结合多种模型的优势,生成更为精确的预测结果。此外,尝试深度学习方案也为我们提供了新的思路和方法。电力需求预测是一项复杂的任务,通过不断地探索和实践,我们可以持续改进模型的性能,最终在比赛中取得优异的成绩。希望大家能够从本文中有所收获,并在实际项目中灵活应用这些技术。继续努力,向冠军进发!欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。原创 2024-07-15 11:00:00 · 951 阅读 · 0 评论 -
电力需求挑战赛进阶(Datawhale AI 夏令营)
在前面的任务中,我们介绍了赛题并通过基于经验模型的Baseline完成了预测任务。在本次任务中,我们将使用更为先进的机器学习模型LightGBM来解决问题,以期获得更好的预测效果。你将学会如何使用数据集绘制柱状图和折线图,如何在时间序列数据中构建历史平移特征和窗口统计特征,并使用LightGBM模型进行训练和预测。特征工程在机器学习竞赛中是一个至关重要的环节。通过观察数据并结合领域知识来改进或构建新的特征,可以显著提高模型性能。原创 2024-07-15 09:00:00 · 536 阅读 · 0 评论 -
基于术语词典干预的机器翻译挑战赛baseline及改进(Datawhale AI 夏令营)
然而,在特定领域或行业中,NMT仍面临一些挑战,尤其是在术语一致性方面。对于术语名词、人名地名等特定词汇,机器翻译经常会出现不准确的结果,这会导致翻译的混淆或歧义。通过引入术语词典,可以纠正这些错误,从而提高翻译质量。参赛队伍需要使用提供的训练数据,构建并训练多语言机器翻译模型,并基于测试集和术语词典,提供最终的翻译结果。对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标BLUE-4进行评价,具体工具使用sacrebleu开源版本。本次比赛的任务是基于术语词典干预的英文到中文的机器翻译。原创 2024-07-14 09:30:00 · 609 阅读 · 0 评论 -
电力需求挑战赛之baseline及其改进(Datawhale AI 夏令营)
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。预测结果以 mean square error 作为评判标准。原创 2024-07-13 11:28:52 · 662 阅读 · 0 评论 -
Deepfake攻防挑战赛音视频赛题之数据增强(Datawhale AI 夏令营)
在这篇博文中,我们详细介绍了如何通过数据增强来提升模型的表现。通过对数据进行多样化变换,如几何变换、颜色变换、自动增强,以及高级的MixUp和CutMix技术,我们能够显著增加训练数据的多样性,提升模型的泛化能力。除了图像数据的增强方法,我们还探讨了音频数据增强技术,如时间拉伸、音调变换、添加噪声等。合理使用这些增强技术,不仅能提高模型的鲁棒性和抗干扰能力,还能在实际项目和竞赛中取得更好的效果。希望这篇博文能帮助大家更好地理解和应用数据增强技术,不断优化和提升模型性能。原创 2024-07-17 11:15:00 · 1560 阅读 · 0 评论 -
Deepfake攻防挑战赛音视频赛题之深度学习(Datawhale AI 夏令营)
深度学习是机器学习的一个分支,通过多层神经网络模拟人脑的学习方式。每一层神经元接收前一层的输出,通过权重和激活函数进行计算,传递到下一层。提取音频并生成MEL频谱图,将其转换为图像格式。import cv2在这篇博文中,我们详细介绍了如何从零开始构建一个基于深度学习的Deepfake检测模型。我们从数据准备、模型训练到性能评估,逐步剖析了每一个关键环节。通过这种方式,大家可以深入理解深度学习在实际应用中的强大功能。原创 2024-07-16 20:06:19 · 965 阅读 · 0 评论 -
基于术语词典干预的机器翻译挑战赛之大模型(Datawhale AI 夏令营)
本文介绍了两种基于大模型实现机器翻译的方法:本地部署大模型和调用API。通过这两种方法,我们可以利用强大的预训练模型显著提高机器翻译的效果和效率。无论是本地部署还是调用API,都为我们提供了灵活的选择,满足不同场景下的需求。具体来说,本地部署大模型具有数据安全性高、自定义能力强、无使用限制等优点,但硬件要求高、配置复杂、维护成本高;而调用API则具有使用简单、无需硬件投入、快速上手等优点,但可能存在数据隐私问题、调用次数限制、依赖外部服务等缺点。两种方法各有优劣,适用于不同的使用场景和需求。原创 2024-07-17 08:15:00 · 811 阅读 · 0 评论 -
基于术语词典干预的机器翻译挑战赛之Transformer(Datawhale AI 夏令营)
基于循环或卷积神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在建模文本长程依赖方面都存在一定的局限性。卷积神经网络:受限的上下文窗口在建模长文本方面天然地存在不足。如果要对长距离依赖进行描述,需要多层卷积操作,而且不同层之间信息传递也可能有损失,这些都限制了模型的能力。循环神经网络:上下文的语义依赖是通过维护循环单元中的隐状态实现的。在编码过程中,每一个时间步的输入建模都涉及到对隐藏状态的修改。随着序列长度的增加,编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。原创 2024-07-16 19:16:17 · 790 阅读 · 0 评论 -
Deepfake攻防挑战赛音视频赛题之baseline及初步改进(Datawhale AI 夏令营)
背景:深度伪造技术的快速发展带来了新的挑战和安全威胁,比赛旨在开发和优化检测模型以提升Deepfake图像检测的准确性和鲁棒性。任务:判断一张人脸图像是否为Deepfake图像,并输出其为Deepfake图像的概率评分。原创 2024-07-12 19:25:44 · 748 阅读 · 0 评论