- 博客(48)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】【代码篇】A题解题全流程(持续更新)
1、其中系统盘为所需模型的文件,比较大,包含clip的clip_cn_vit-b-16.pt,千问是视觉大模型7B量级,以及版面分析模型权重文件,移入autodl平台的服务器系统盘,我已保存为ATI镜像,直接分享镜像,创建实例后即可,不用浪费时间下载。核心任务就是针对问题一的正文内容是使用的pdf属性为文本,提取文本内容,通过result1.xlsx可以看出存在文本字数为0的情况,也即是说会有pdf是又由截图组成的,例如将word内容截图贴图,形成pdf。论文重复率 = 论文中抄袭字数/论文中总字数。
2025-04-02 13:41:25
750
原创 【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】【思路篇】A题解题全流程(持续更新)
【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】A题解题全流程-思路分享,后续更新
2025-03-25 18:12:41
1430
1
原创 人工智能算法毕设项目一-老式水表读数检测识别算法研究与实现
毕设无忧版。本课题基于数据开放平台的水表图片集、手机拍摄水表图片集、网络图片收集、竞赛平台数据集等,处理筛选数据后,针对两款水表数据进行图片标注处理,分别为**八指针老式水表**和**四指针老式水表**。具有丰富代码、数据、论文等,
2024-08-27 20:48:25
615
原创 【第十届泰迪杯数据挖掘挑战赛A题害虫识别】-农田害虫检测识别-高精度完整更新
利用附件1和附件2的信息,建立确定害虫位置及种类的模型和算法。应用问题1所建立的模型和算法对附件3中提及的图像进行识别,并确定害虫的位置,将结果存放在“result2.csv”文件中(模板文件见附件4中的result2.csv)。根据问题2得到的结果,对附件3中提及的图像文件中不同种类的害虫数量进行统计,将统计结果存放在“result3.csv”文件中(模板文件见附件4中的result3.csv)。包含3015张图片。其中有害虫标签的图片为576张,804张为待测图片、剩余图片为background。
2024-08-05 14:14:41
1114
原创 基于电商图文数据跨模态检索 图文互检系统
model-arch: 模型规模,选项包括: 指定Pytorch模型ckpt路径,上面的代码示例中我们指定为预训练的ckpt路径,也可以指定为用户finetune ckpt的位置。ckpt中的参数需要与model-arch指定的模型规模对应: 指定输出ONNX格式模型的路径(前缀)。完成转换后,代码将分别输出文本侧和图像侧的ONNX格式编码模型文件,FP32与FP16各一版,该参数即指定了以上输出文件的路径前缀和: 指定是否转换文本侧和图像侧模型。
2024-07-25 09:51:38
810
原创 【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—更新(正式比赛)
更新内容:全部代码,制作数据、训练权重,结果,视频:其中,LXS文件夹,代表所有的jupyter代码以及Chinese clip模型代码,基于服务器就可以直接运行,(找我分享服务器镜像,不用再配置环境了)今晚将进行选择最大最全面的中文预训练模型,对正式数据再进行训练(很费时间,很费资源。
2024-04-14 22:13:55
2018
2
原创 【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—解题全流程(论文更新)
本节主要更新了论文、训练日志的log数据提取(Loss、ACC、R@K)等数据可视化作图的代码,拆分B题单品
2024-03-31 00:05:05
2500
2
原创 【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—解题全流程(持续更新)
本题的全部资料打包为“全家桶”,“全家桶”包含:模型数据、全套代码、训练好的模型权重、结果csv、教程、详细实验过程PPT、教学视频、成品论文(还在写作中,后续跟新至文件中)(赠品)基于正式数据的毕设级项目多模态图文互检系统达到“以赛促学”的目的,从0到1,从环境配置开始,到模型构建、数据准备、模型训练、模型recall_TOP1、5、10召回验证、文到图预测、图到文预测、预测结果后处理为result.csv。全流程教学,良心制作。
2024-03-23 13:09:29
5227
12
原创 数据挖掘分析课程---课程设计合集
一共35个课程设计,都包含可执行代码、结果、以及4000字以上的论文,有效辅助解决数据挖掘课程的课程设计。
2023-12-28 21:52:54
3342
5
原创 Python Flask+Echarts+sklearn+MySQL(评论情感分析、用户推荐、BI报表)项目分享
Yelp Reviews是Yelp为了学习目的而发布的一个开源数据集,其中包含了数百万用户的评论、商业属性和大都市地区的照片。
2023-08-15 11:46:03
1466
原创 NeuralNLP-NeuralClassifier的使用记录(二),训练预测自己的【中文文本多分类】
链接:https://pan.baidu.com/s/1fw_ipmOFWMiTLAFrs9i5ig。2、创建该数据的文本数据对应的标签集Chinese_label.taxonomy。3、创建该数据的训练配置文件Chinese_train_conf.json,可以看出预测效果仅一个错误,该模型方便NLP的比赛分类等,准确率也很高。1、创建中文数据文件夹,Chinese_datas,
2023-08-13 23:09:47
1022
2
原创 NeuralNLP-NeuralClassifier的使用记录(一),训练预测自己的【英文文本多分类】
--conf # config文件存放目录|--data # 所有数据和schema存放目录|--dataset # 构建dataloader所需脚本|--model|--classification # 项目中使用到的所有特征编码器|-- ...... 各模型通用的一些模块|--predict.txt # 执行预测生成的预测结果|--checkpoint_dir_{} # 训练过程中保存下来的权重文件目录|--dict_{} # 加载数据时产生的缓存文件目录。
2023-08-13 23:06:43
1775
原创 C 题 母亲身心健康对婴儿成长的影响【2023 华数杯全国大学生数学建模竞赛题目】思路+完整代码
许多研究表明,母亲的身体指标和心理指标对婴儿的行为特征和睡眠质 量有影响,请问是否存在这样的规律,根据附件中的数据对此进行研究。婴儿行为问卷是一个用于评估婴儿行为特征的量表,其中包含了一些关 于婴儿情绪和反应的问题。我们将婴儿的行为特征分为三种类型:安静型、中等 型、矛盾型。请你建立婴儿的行为特征与母亲的身体指标与心理指标的关系模型。数据表中最后有20组(编号391-410号)婴儿的行为特征信息被删除,请你判断 他们是属于什么类型。
2023-08-04 13:04:58
1568
原创 大数据开发基础-环境配置篇-Hadoop集群安装
首先是大数据开发基础篇 环境搭建、组件面试题等其次是更新大数据开发面经的java面试基础最后更新一个大数据开发离线数仓的实战项目,自己写入简历的项目。关注不迷路,学习要进步!!!!!!
2023-06-26 17:24:42
666
原创 【第十一届泰迪杯B题产品订单的数据分析与需求预测产品订单的数据分析与需求预测 】第二大问代码分享+解题思路(EDA数据再探索+LightGBM模型)
- 根据第一问的简单分析,和衍生出了一些特征,例如年月日、价格标签、是否节假日、week等- 读入第一问保存的文件csv,process1.csv,进行数据再探索,发现需要对价格进行更细致的分区间,我采用最优分箱操作,将每个产品的价格归为不同的价位区间,因为相同的产品,它在不同的地区,不同的时间,价格会有波动,所以使用分箱,可以大致归纳价格特征。- 然后再在此基础上,衍生出其他特征,星期几、是否工作日等(因为跟据EDA数据探索和第一问可视化分析,发现周末、还有不是工作日时,需求量会有所上升。)
2023-04-06 19:57:41
12248
22
原创 【第十一届“泰迪杯”数据挖掘挑战赛】B题产品订单的数据分析与需求预测“解题思路“”以及“代码分享”
此题我们需要分析:不同大品类2015到2018年需求量分析、不同细分品类2015到2018年需求量分析从而得出不同点与共同点。首先需要对日期进行判断月初、月中、月末区间,打上标签,再根据标签进行分组(注意:数据中2018的12月没有月末区间数据)先对每天的需求量进行统计,再进行对数据季节打标签处理,最后分组统计获得每年每个季节的需求量均值,绘图分析。(2) 产品所在区域对需求量的影响,以及不同区域的产品需求量有何特性;创作不易,还请见谅!计算促销日期所在周的需求量,以及其前一周,后一周的需求量,
2023-03-26 23:20:14
20757
10
原创 YOLOv5害虫识别项目代码打包完整上传Gitee仓库(已开源)以及git上传速率限制踩坑记录
最近很多小伙伴需要这个,由于文件过大,所以将代码完整上传至gitee,所有文件、教程、论文、以及代码模型、模型结果等。文末有,还请点个小关注。
2023-03-07 17:38:45
1141
1
原创 深度学习之“制作自定义数据”--torch.utils.data.DataLoader重写构造方法。
本文讲述**重写torch.utils.data.DataLoader类的构造方法**,**对自定义图片制作类似MNIST数据集格式**(image, label),用于自己的Pytorch神经网络模型运行,
2023-02-23 20:08:53
1777
原创 “与众不同”的TOP250详细数据采集,pyecharts世界地图多维可视化展示
本文描述爬取250的电影详细信息,包括对电影名、评分、评论人数、电影名言、导演演员信息、电影年份、电影国家、电影类型等详细爬取;并且针对爬取的数据使用Numpy、pandas等进行了数据处理、拆分、分组等操作,最后使用pyechatrs对数据进行柱状图、实时排序图、世界地图、饼图等可视化展示。
2023-02-20 15:54:16
808
原创 深度学习TensorFlow—GPU2.4.0版环境配置,一文简单易懂详细大全,CUDA11.0、cuDNN8.0
前提:电脑拥有英伟达独立显卡!!!,并且安装了anaconda!!!本文简单易懂,现在的电脑,一般都是显卡驱动版本超过450的,在Anaconda Prompt中输入查看nvidia-smi。
2023-01-23 17:43:53
4275
1
原创 自学Java篇之JFrame创建《石头迷阵小游戏》
JAVA小案例,JFrame编写石头迷阵小游戏,包含内部类、匿名内部类和接口、继承等知识点。JFrame知识点细节处理,本案例读懂并跟着敲一遍,效果显著,收获颇多。你一定会感谢我滴。
2023-01-17 21:24:28
1743
2
原创 大数据课程设计(一)二手房数据挖掘可视化
一个人为单位,设计并实现数据可视化系统,项目应能够将数据以柱状图、折线图、等图表进行展示,图表清晰、系统功能设计完整、合理,同时录制讲解视频、配套论文
2023-01-15 10:13:40
1638
1
原创 第五届“泰迪杯”数据分析技能赛 经验代码分享
在各类学科竞赛中,常常要求参赛者提交Excel或/和PDF格式的竞赛作品。本赛题以某届数据分析竞赛作品的评阅为背景,要求参赛者根据给定的评分准则和标准答案,使用Python编程完成竞赛作品的自动评判。本届竞赛于2022年9月5日正式开始,至2022年11月13日结束,历时两个半月。技能赛共计有来自全国249所高校1603支队伍报名参赛,由高校和公司共同组成的评审专家组历时半个月的盲审。本届竞赛采用盲审(屏蔽参赛者信息;两位评阅专家同时评阅同一作品,超限调整后再取平均分
2023-01-13 09:28:07
3347
原创 钉钉杯初赛A题建模-多模型融合预测银行卡诈骗模型(详细代码、解释)
使用多种用于数据挖掘的机器学习模型对给定数据集进行建模;2) 对样本数据进一步挖掘分析,通过交叉验证、网格调优对不同模型的参数进行调整,寻找最优解,将多个最优模型进行进一步比较;3) 通过对 precision(预测精度)、recall(召回率)、f1-score(F1 分数值)进行计算,给出选择某一种预测模型的理由;4) 将模型性能评价通过多种作图方式进行可视化......
2022-08-13 20:53:11
5138
1
原创 2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析 (视频讲解+解题源码)、数据挖掘、数据分析实战
1. 对肥料登记数据进行预处理。2. 根据养分的百分比对肥料产品进行细分。3. 从省份、日期、生产商、肥料构成等维度对肥料登记数据进行对比分析。4. 对非结构化数据进行结构化处理。
2022-07-21 18:26:01
4224
7
原创 游玩数据获取与数据分析、数据挖掘 【2022.5.30】
正经爬虫入门案例、旅游业又可以称作为旅游产业,主要是从事招待接待游客,为游客提供食宿、交通、餐饮、文化、娱乐等服务的综合性产业。在很多地区,旅游业已经成为当地经济发展的支柱产业,对于脱贫攻坚具有非常重要的意义。本文通过采集数据、数据清洗、得到初步的规范的理想数据集。..................
2022-07-16 18:16:01
936
1
原创 数据分析与数据挖掘实战案例本地房价预测(716):
原2022 年首届钉钉杯大学生大数据挑战赛练习题目练习题 A:二手房房价分析与预测解题代码,分享学习住房一直以来都是人们关心的热门话题,房价也是人们时时刻刻关心的热点。虽然新房子更加上档次,但是二手房有着现房交易,地段较好,配套设施完善,选择面更加广泛等优势,因此二手房越来越受到广大消费者的青睐。根据现有二手房的地段、装修等属性预估该二手房的价格也是买卖双方所关心的问题。因此通过现有数据,分析并且预测二手房的价格是一项有意义的研究课题。...
2022-07-16 10:02:19
6477
3
原创 数据库实训7【索引与数据完整性约束的创建】
①掌握索引的功能和作用。②掌握索引的创建和管理方法。③掌握数据完整性约束的功能和作用。④掌握创建和管理数据完整性约束方法。
2022-05-21 11:56:46
8938
转载 泰迪杯A题完整版 优化更新(4/23)
、问题背景病虫害一直是农业生产中无法避免的问题,每年都会由此造成巨大的经济损失。为了对农田病虫害进行有效的预防和控制,需要收集有害生物信息,在此基础上进行虫情分析。由于农田害虫的多样性和信息类型的复杂性,通过人工观察统计的传统害虫监测方式已经难以满足现代大规模农业生产对虫害预防工作的需要。近年来出现的虫情测报灯是虫情信息采集的智能设备,可以在无人监管的情况下,实现自动诱集、杀虫、虫体分散、拍照等作业,并实时地将虫情信息上传至云平台。虫情测报灯的投入使用可帮助植保人员高效地进行虫情分析,提高测报
2022-04-23 13:30:50
3448
17
原创 【2022第十届‘泰迪杯’挑战赛】A题:害虫识别完整版(大致思路。详细过程和代码以及结果csv在压缩包中)
2022泰迪杯挑战赛A题害虫识别完整版(大致思路,详细过程和代码在压缩包中): 本套压缩包,包含了:数据预处理代码、YOLO害虫识别定位全套代码、结果处理代码(去归一化为像素坐标等转为csv文件)、已有的结果result2,result3.csv(由于百度网盘速度感人,上传至阿里云盘,包中有网站和提取码)等
2022-04-17 13:35:52
15635
57
原创 mysql数据库实验实训6,数据视图(详细)
mysql数据库实验实训6,数据视图(详细)视图是根据用户的不同需求,在物理数据库上按用户观点来定义的数据结构。视图是一个虚表,数据库中只存储视图的定义,不实际存储视图所对应的数据,对视图的数据进行操作时,系统根据视图的定义去操作与视图相关联的基本表。
2022-04-15 17:35:58
16596
1
原创 租用服务器,以及部署在pycharm专业版上的pytorch环境训练yolov5模型教程服务器环境安装库文件:
租用服务器,以及部署在pycharm专业版上的pytorch环境训练yolov5模型教程服务器环境安装库文件:
2022-04-12 17:58:37
5399
4
原创 简单快速建立pytorch环境YOLOv5目标检测 模型跑起来(超简单)
简单快速建立pytorch环境+实现YOLOv5目标检测 模型跑起来(小白都会的教程)
2022-04-09 17:16:02
11109
3
原创 机器学习之特征提取(类别特征进行数值化、离散化、文本特征进行数值化)
- 应用DictVectorizer实现对类别特征进行数值化、离散化 - 应用CountVectorizer实现对文本特征进行数值化 - 应用TfidfVectorizer实现对文本特征进行数值化
2022-04-06 19:51:01
4795
selenium自动化爬取智联招聘招聘网站+数据分析+Chromedrive插件代码合集
2022-04-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人