自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(390)
  • 收藏
  • 关注

原创 合合信息TextIn大模型加速器2.0:图表解析能力的横向测评

● 简介:TextIn是合合信息旗下的一站式OCR服务平台,提供多种文档处理和图像识别服务,包括通用识别、票据识别、企业证照识别等。近期,TextIn上线了图表解析功能,能够智能解析多种图表类型,并以Excel格式输出。● 图表解析能力:支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型。能够准确提取图表中的关键数据点、坐标轴信息、图例说明等,并将其还原为结构化数据。通过本次横向测评,可以看出合合信息TextIn大模型加速器 2.0在图表解析方面具有明显优势。

2025-04-01 11:15:57 1058 6

原创 【机器学习案列】基于随机森林的运动能量消耗预测分析实战

核心规律:运动时长是能量消耗的决定性因素模型优势:RF实现R²=0.997的高精度预测应用场景:健身APP卡路里计算、运动手环算法优化完整代码&数据集下载私信我!!!技术交流。

2025-03-08 21:41:19 995 2

原创 【目标检测】目标检测中的数据增强终极指南:从原理到实战,用Python解锁模型性能提升密码(附YOLOv5实战代码)

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-02-24 13:46:34 1236 2

原创 【数据可视化-18】猫猫数据可视化分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-02-17 16:46:05 926 3

原创 【数据可视化-17】基于pyecharts的印度犯罪数据可视化分析

首先,我们需要导入必要的Python库,包括pandas和pyecharts。以上代码实现了对印度犯罪数据的10个关键维度的可视化分析。通过 pyecharts,我们能够直观地展示城市犯罪数量、犯罪领域、警力部署、受害者特征等多方面的信息。这些可视化图表可以帮助研究人员、政策制定者和执法机构更好地理解犯罪模式,从而制定更有效的公共安全策略。

2025-02-14 14:51:05 3098 34

原创 【数据可视化-16】珍爱网上海注册者情况分析

这里我们将使用stylecloud库来绘制词云图,看看自我介绍的词云图的分布情况,首先按照stylecloud库!其次,编写自我介绍的清洗函数,具体函数如下;# 读入停用词表# 添加关键词my_words = ['同频共振', '知冷暖', '毕业落户', '外冷内热', '造梦者','外冷内热','性格相投']# 自定义停用词my_stop_words = ['设施', '学校', '我校', '希望', '...','一个','增加'

2025-02-11 17:29:54 1144 3

原创 【数据可视化-15】2024全国500强企业可视化分析

通过本文,我们展示了如何使用 Pyecharts 对 2024 年全国 500 强企业的数据进行可视化分析。从柱状图、地图热力图、饼图、表格到词云图,可以从图中直观的发现500强企业具体情况。

2025-02-08 14:41:53 780 3

原创 【机器学习案列】基于XGBoost的睡眠时间预测

锻炼时间(小时/天)阅读时间(小时/天)手机使用时间(小时/天)工作时间(小时/天)咖啡因摄入量(毫克/天)放松时间(小时/天)睡眠时间(小时/夜)这些数据反映了人们在一天中的各种活动情况以及对应的睡眠时间。通过对这些数据的分析,我们可以探索不同活动对睡眠时间的影响,进而构建预测模型。

2025-02-07 13:00:19 950 1

原创 【机器学习案列】糖尿病风险可视化及预测

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-02-06 11:31:33 1014 2

原创 【数据可视化-14】Boss招聘数据分析岗位的可视化分析

company:公司名称:岗位名称:工作地点job_salary:薪资范围job_exper:经验要求及学历:经验要求tags:技能标签。

2025-02-05 10:00:10 1514 28

原创 【数据可视化-13】全国星巴克门店可视化

通过以上的步骤,我们成功地实现了对星巴克全国门店数据的可视化分析。从各个省份的门店数量、全国门店分布热点图、各省门店数量占比,到门店的营业时间段数量,都进行了详细的可视化展示。这些图表可以我们直观地理解了星巴克门店的分布情况。如果您在人工智能领域遇到技术难题,或是需要专业支持,无论是技术咨询、项目开发还是个性化解决方案,我都可以为您提供专业服务,如有需要可站内私信或添加下方VX名片(ID:xf982831907)期待与您一起交流,共同探索AI的更多可能!

2025-01-23 14:20:29 1820 4

原创 【机器学习案列】探索各因素对睡眠时间影响的回归分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-01-22 09:14:01 841

原创 【NLP案列】基于cnews.train.txt数据集的Text-RNN文本分类实战

损失函数和优化器本次实战通过Text-RNN模型实现了新闻文本的分类。经过数据预处理、模型构建、训练和评估等步骤,得到了一个性能良好的文本分类模型。注意,上述代码仅为示例,具体实现时可能需要根据实际情况进行调整。例如,可以根据数据集大小调整batch_size、num_epochs等参数,以及使用更复杂的RNN变体(如GRU)或添加Dropout层以防止过拟合。

2025-01-15 22:34:32 1037 2

原创 【机器学习案列】基于朴素贝叶斯的垃圾短信分类

朴素贝叶斯优点可以处理特征数量巨大的情况不易过拟合训练时间短朴素贝叶斯缺点朴素贝叶斯假设所有特征都是独立的,某些情况下可能会出现问题需要足够多的数据才能获得特征比较准确的概率分布通过上述步骤,我们成功地使用朴素贝叶斯分类器来检测垃圾短信。尽管朴素贝叶斯分类器相对简单,但在许多文本分类任务中表现良好。你可以尝试使用其他特征提取方法和分类算法来进一步提高模型的性能。

2025-01-14 15:14:52 923 6

原创 【数据可视化-12】数据分析岗位招聘分析

company:公司名称:岗位名称:工作地点job_salary:薪资范围job_exper:经验要求及学历:经验要求tags:技能标签。

2025-01-13 17:56:16 1292

原创 【机器学习案列】学生抑郁可视化及预测分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-01-09 17:47:37 993 1

原创 【数据可视化-11】全国大学数据可视化分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2025-01-05 16:39:07 1177 1

原创 【数据可视化-10】国防科技大学录取分数线可视化分析

Pyecharts是一个用于生成Echarts图表的Python库。Echarts是一个使用JavaScript实现的开源可视化库,能够生成丰富的交互式图表。Pyecharts通过将Echarts的图表转化为Python代码,使得在Python环境下也能方便地生成高质量的图表。

2024-12-31 14:31:26 4595 50

原创 【机器学习案列】车牌自动识别系统:基于YOLO11的高效实现

车牌自动识别系统作为智能交通系统的重要组成部分,具有广泛的应用前景和市场需求。通过使用YOLO11等先进的对象检测模型,我们可以实现高效准确的车牌识别,为停车场管理、交通执法、车辆追踪等领域提供有力的技术支持。然而,车牌识别技术仍面临一些挑战,如光线不足、车牌设计多样、环境条件恶劣等。优化模型结构和参数,提高检测精度和速度。引入更多的训练数据,特别是包含各种复杂场景和车牌设计的图像,以提高模型的泛化能力。结合其他技术,如图像增强、超分辨率重建等,以提高图像质量和识别效果。

2024-12-26 09:33:20 2098 5

原创 【机器学习案列】使用随机森林(RF)进行白葡萄酒质量预测

非挥发性酸(fixed acidity)挥发性酸(volatile acidity)柠檬酸(citric acid)残糖(residual sugar)氯化物(chlorides)游离二氧化硫(free sulfur dioxide)总二氧化硫(total sulfur dioxide)密度(density)酸碱度(pH)硫酸盐(sulphates)酒精(alcohol)葡萄酒质量(quality,0-10)

2024-12-20 22:47:21 1797 3

原创 【数据可视化-09】白葡萄酒质量数据的EDA可视化分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2024-12-20 00:33:09 1624 32

原创 【数据可视化-08】探索影响不同国家预期寿命的主要因素

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2024-12-18 21:25:45 1090 2

原创 【机器学习案列】平均预期寿命预测

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。

2024-12-17 22:42:06 1302 32

原创 【NLP-06】词形还原(Lemmatization)深度解析与实践

emsp词形还原(Lemmatization)是自然语言处理(NLP)中的一个重要步骤,它旨在将单词还原为其基本的、词典中的形式,即词元(lemma)。与词形还原密切相关的是词干提取(Stemming),但两者在方法和目标上有所不同。词形还原更注重词汇的语义,而词干提取则更关注词汇的形态变化。

2024-10-31 00:42:07 1443 4

原创 【yolov8旋转框检测】微调yolov8-obb目标检测模型:数据集制作和训练

OBB检测方法里面旋转框的表示方法有好几种,YOLO V8 OBB使用的是(通过坐标在 0 和 1 之间归一化的四个角点来指定边界框):具体的DOTA格式的数据格式如下 ,class_index, x1, y1, x2, y2, x3, y3, x4, y4(需要做归一化)。在roLabelImg上标注好数据,roLabelImg标注的八点式XML文件,即(x1,y1) (x2,y2) (x3,y3)(x4,y4)与class_index,difficult的信息,具体的标注的图片如下;

2024-10-22 03:58:15 2232 5

原创 【目标检测---旋转框标注】roLabelImg安装与使用

roLabelImg是基于LabelImg改进而来的一款图像标注工具,它特别支持旋转框的标注,这对于检测倾斜或旋转目标尤为重要。roLabelImg使用Python编写,界面友好,操作便捷,非常适合用于标注目标检测任务所需的数据集。启动roLabelImg后,你将看到一个简洁的标注界面。菜单栏:包含文件操作、标注设置等功能。工具栏:提供打开文件夹、创建矩形框、保存标注等快捷操作。图像显示区:显示待标注的图像。状态栏:显示当前图像的信息和标注状态。

2024-10-16 00:51:15 3325 7

原创 【机器学习案列】基于随机森林和xgboost的二手车价格回归预测

Clean ”功能只有一个唯一值,所以我们可以将其删除。5.3.2 Random Forest回归模型。kaggle二手车价格回归预测项目,目的。4.1 检查每个特征是否具有不同的值。5.3.1 Xgboost回归模型。3.3 热图检查数值特征之间的关系。没有缺失的值,所以我们可以继续了。3.1 车型年份与价格的关系。3.2 滞留量与价格的关系。5.1 数据样本和标签分离。1.6 各品牌平均里程数。5.3 模型训练和评估。3.4 按品牌统计图表。2.1 导入相应的库。

2024-09-27 16:45:48 2186 40

原创 【机器学习案列分析】逻辑回归预测银行客户是否会开设定期存款账户

本数据集旨在预测银行客户是否会开设定期存款账户。数据集包含了大量银行客户的个人信息和交易历史,涵盖了各种可能影响客户决策的因素。通过对这些数据的分析,银行可以更好地理解客户的需求和偏好,进而制定更有效的营销策略。

2024-06-29 22:23:53 4096 115

原创 【机器学习】Sklearn使用教程---入门与应用案列

Scikit-learn(简称Sklearn)是Python中一个强大的机器学习库,它提供了大量现成的机器学习算法和工具,用于处理回归、分类、聚类、降维等任务。Sklearn的设计目标是提供一个简单、高效、易于使用的工具集,使得机器学习开发者能够快速地应用各种算法来解决实际问题。简单高效:提供了用户友好的接口和高效的实现,使得机器学习实验变得更加容易。可重用性:使得机器学习算法能够在不同的环境中重复使用,提高了开发效率。基于NumPy、SciPy和Matplotlib。

2024-06-19 13:02:55 3351 113

原创 【Python数据挖掘实战案例】机器学习LightGBM算法原理、特点、应用---基于鸢尾花iris数据集分类实战

在数字化时代,数据已经成为企业和社会决策的重要依据。数据挖掘作为一门交叉学科,结合了统计学、机器学习、数据库技术和可视化等多个领域的知识,旨在从海量数据中提取有价值的信息,以支持商业决策、科学研究和社会治理。通过数据挖掘,企业可以发现市场趋势、优化产品设计、提升用户体验;科研人员可以揭示自然规律、推动学科发展;政府部门可以优化资源配置、提高治理效率。因此,数据挖掘在当今社会具有极其重要的地位和应用价值。

2024-06-06 10:47:58 12844 228

原创 【机器学习-23】关联规则(Apriori)算法:介绍、应用与实现

关联规则学习是一种数据挖掘技术,旨在发现数据集中项之间的有趣关系。这些关系通常以“如果…那么…”的形式呈现,表示一种条件与结论的关联性。在商业分析中,关联规则学习常用于识别顾客购买行为中的模式,例如哪些商品经常被一起购买。通过发现这些模式,企业可以制定更有效的营销策略,提高销售额和客户满意度。关联规则学习的重要性在于它能够从大量数据中提取出有价值的信息,帮助企业更好地理解客户行为和市场需求。这些信息不仅可以用于产品推荐、交叉销售等场景,还可以为企业的战略决策提供有力支持。

2024-05-26 18:53:36 9681 184

原创 【数据可视化-07】波士顿房价预测数据分析

通过本次波士顿房价预测项目,我们深入探索了数据可视化在房价预测中的应用。通过绘制散点图、相关性矩阵、箱线图、直方图和密度图等多种可视化图表,我们成功地揭示了房价与各特征之间的关系及趋势。同时,我们也发现了数据中存在的一些异常值和潜在问题,并提出了相应的处理建议。在模型训练方面,我们选择了合适的预测模型,并通过调整模型参数和优化算法来提高模型的预测性能。最终,我们得到了一个具有较高预测精度的房价预测模型,可以为房地产市场的投资者和决策者提供有价值的参考信息。

2024-05-23 13:58:47 7534 238

原创 【数据可视化-05】Plotly数据可视化宝典

Plotly是一个基于Web的数据可视化库,它支持多种编程语言,包括Python、R、JavaScript等。Plotly具有强大的图表定制能力、丰富的图表类型和交互功能,广泛应用于数据分析、科学研究和机器学习等领域。Plotly的历史可以追溯到2012年,由克里斯·帕特尔(Chris Plotly)等人创建。经过多年的发展,Plotly已经成为数据可视化领域的佼佼者之一。Plotly作为一款功能强大的数据可视化库,在机器学习项目中发挥着重要作用。

2024-05-15 18:11:00 5008 231

原创 【数据可视化-04】Pyecharts数据可视化宝典

Pyecharts提供了丰富的配置项和参数,用于自定义图表的样式、布局等。标题配置:使用title_opts参数配置图表的标题,包括标题文本、位置、颜色等。坐标轴配置:使用xaxis_opts和yaxis_opts参数配置X轴和Y轴的样式和属性,如标签、刻度线、分割线等。数据项配置:使用和等方法添加数据到图表中,并可以配置数据项的样式和属性,如颜色、标记符号等。全局配置项:使用方法配置图表的全局样式和布局,如标题、图例、背景色等。其他配置项。

2024-05-12 18:51:35 9782 210

原创 【数据可视化-03】Pandas图形实战宝典

在数据可视化中,自定义图形样式是提升图表可读性和美观性的重要手段。Pandas通常结合Matplotlib库进行绘图,而Matplotlib提供了丰富的API来自定义图形的各种属性。颜色:可以通过设置color参数来自定义线条、标记、区域等的颜色。线型:可以通过设置linestyle或ls参数来自定义线条的类型,如实线、虚线、点线等。标签:可以通过设置xlabelylabel和title参数来添加或修改坐标轴和标题的标签。

2024-05-09 19:59:07 9920 231

原创 【数据可视化-02】Seaborn图形实战宝典

Seaborn是一个基于Python的数据可视化库,它建立在matplotlib的基础之上,为统计数据的可视化提供了高级接口。Seaborn通过简洁美观的默认样式和绘图类型,使数据可视化变得更加简单和直观。它特别适用于那些想要创建具有吸引力且信息丰富的统计图形的数据科学家和数据分析师。集成性:Seaborn与pandas数据结构紧密结合,使得数据分析和可视化可以无缝衔接。美观性:Seaborn提供了精心设计的默认样式和调色板,使得图形更具吸引力。统计绘图。

2024-05-06 20:40:57 12791 239

原创 【机器学习-22】集成方法---Boosting之AdaBoost

1.1*集成学习的概念**1.1.1集成学习的定义集成学习是一种通过组合多个学习器来完成学习任务的机器学习方法。它通过将多个单一模型(也称为“基学习器”或“弱学习器”)的输出结果进行集成,以获得比单一模型更好的泛化性能和鲁棒性。1.1.2集成学习的基本思想集成学习的基本思想可以概括为“三个臭皮匠顶个诸葛亮”。通过将多个简单模型(弱学习器)的预测结果进行组合,可以得到一个更强大、更稳定的模型(强学习器)。这种组合可以有效地降低单一模型的偏差和方差,从而提高整体的预测性能。1.1.3。

2024-05-04 21:25:06 10025 145

原创 【数据可视化-01】Matplotlib图形实战宝典

本文将介绍如何使用matplotlib绘制折线图、直方图、饼图、散点图和柱状图等数据分析中常见的图形,并附上相应的代码示例,可以当初matplotlib函数库来使用,将案列中的数据替换成自己真实的数据即可绘制出符合条件的图像。下面封装的ineChartPlotter类,是为绘制不同种类的折线图,有draw_line_chart、draw_line_ndims_one_dim和draw_nline_chart方法,具体的作用参看图片即可了解;最后,我们设置了X轴和Y轴的刻度标签,并为图表添加了标题。

2024-05-01 23:37:03 11452 207

原创 【机器学习-21】集成学习---Bagging之随机森林(RF)

在机器学习的广袤领域中,集成学习是一种强大且灵活的策略,它通过将多个单独的学习器(或称为“基学习器”)组合起来,形成一个更加强大的学习器,以提升模型的预测性能。集成学习的核心思想在于“集体智慧”的力量,即多个学习器的联合决策通常会比单一学习器的决策更为准确和稳健。集成学习的重要性在于它能够有效解决单一学习器可能存在的过拟合、欠拟合、稳定性差等问题。通过将多个基学习器的预测结果进行综合,集成学习不仅能够提高预测精度,还能增强模型的鲁棒性和泛化能力。

2024-04-28 21:37:12 12227 258

原创 【机器学习-19】集成学习---投票法(Voting)

集成学习是一种强大的机器学习方法,它通过构建并结合多个学习器(也称为“基学习器”或“弱学习器”)的预测结果来完成学习任务。集成学习的主要目的是通过结合多个学习器的预测结果来提高模型的泛化能力和鲁棒性,降低单一学习器可能存在的过拟合或欠拟合风险。集成学习的基本原理在于,不同的学习器往往具有不同的偏差和方差特性,它们在各自的训练数据集上可能会产生不同的预测结果。当我们将这些学习器的预测结果进行某种形式的结合时,可以期望它们的偏差和方差特性能够相互抵消或互补,从而得到更加稳定和准确的预测结果。

2024-04-25 18:02:29 17624 276

葡萄牙银行的电话营销数据

银行客户是否会开设定期存款账户

2024-06-29

信用卡欺诈检测数据集,和机器学习特征筛选:提升模型性能的关键步骤中的特征筛选代码案列

信用卡欺诈检测数据集,和”【机器学习】特征筛选:提升模型性能的关键步骤“中的特征筛选代码案列

2024-04-22

机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示

资源描述: 本资源为机器学习、数据挖掘和数据分析领域的项目,旨在通过使用Python库(包括pyecharts、seaborn和matplotlib)对二手房数据进行分析和可视化展示。 项目的主要目标是挖掘二手房数据背后的隐藏信息,并通过数据可视化的方式呈现这些信息,以便更好地理解和解释二手房市场的特点和趋势。 在这个项目中,我们使用了pyecharts库来生成各种图表和图形,包括动态图、地理图和热力图等,以展示二手房数据的空间分布和变化趋势。pyecharts基于百度开源的Echarts图表库,提供了丰富的图表类型和交互功能,使得数据的可视化呈现更加生动和具有吸引力。 同时,我们还使用了seaborn和matplotlib库来绘制统计图表、直方图、箱线图等,以及进行数据探索和分析。这些库提供了丰富的数据可视化工具和函数,使得我们能够更好地理解数据的分布、关系和趋势。 通过使用这些库和工具,我们可以对二手房数据进行处理、清洗、分析和可视化,从而揭示出二手房市场的一些重要特征,如价格分布、地区分布、房型偏好等。

2024-03-23

机器学习 推荐系统 相似度计算

西雅图酒店数据集,基于用户选择的酒店,为其推荐相似度高的Top10个其他酒店。

2024-03-13

机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码

资源描述 内容概要 本资源提供了基于LightGBM模型的贝叶斯优化过程的代码实现。通过使用贝叶斯优化算法,本代码可以高效地调整LightGBM模型的超参数,以达到优化模型性能的目的。同时,代码中还集成了k折交叉验证机制,以更准确地评估模型性能,并减少过拟合的风险。 适用人群 机器学习爱好者与从业者 数据科学家 数据分析师 对LightGBM模型和贝叶斯优化算法感兴趣的研究者 使用场景及目标 当需要使用LightGBM模型解决分类或回归问题时,可以使用本资源中的代码进行模型超参数的优化。 希望通过自动化手段调整模型参数,以提高模型预测精度或降低计算成本的场景。 在模型开发过程中,需要快速找到最优超参数组合,以加快模型开发进度。 其他说明 代码使用了Python编程语言,并依赖于LightGBM、Scikit-learn等机器学习库。 代码中提供了详细的注释和说明,方便用户理解和使用。 用户可以根据自身需求,修改代码中的参数和配置,以适应不同的应用场景。

2024-03-08

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

内容概要: 本资源包含异烟酸生成过程中各个参数的优化数据集及相应的预测代码。数据集详细记录了不同生产条件下的异烟酸生成参数,如温度、压力、反应物浓度等,以及对应的最终收率。同时,提供了基于机器学习的预测模型代码,用于根据给定参数预测异烟酸的收率。通过此资源,用户可以深入了解异烟酸生成过程中的参数影响,优化生产条件,提高收率。 适用人群: 化学工程及工艺领域的研究人员 化工企业技术人员 数据分析师和机器学习爱好者 使用场景及目标: 在实验室研究阶段,通过调整数据集中的参数,观察收率变化,为优化实验条件提供依据。 在工业生产中,利用预测模型对生产条件进行快速评估,找到最佳生产参数组合,提高异烟酸的收率。 在教学培训中,作为案例素材,帮助学生理解化学工程中的参数优化及机器学习应用。 其他说明: 数据集已经过预处理和标准化,方便用户直接使用。 预测代码基于Python编写,使用了常用的机器学习库,易于理解和修改。 本资源提供免费下载和使用,但请尊重原创,不得用于商业盈利。

2024-03-07

机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型) + 预测一个用户是否会产生违约

内容概要: 本数据集专注于贷款违约预测问题,包含了大量借款人的个人信息、财务状况等多元数据。旨在帮助研究者、金融机构和数据分析师更准确地预测贷款违约风险,为贷款审批、风险管理和信用评估提供有力支持。 适用人群: 金融风控领域的研究人员、金融机构信贷部门人员、数据分析师与机器学习工程师。 使用场景及目标: 贷款审批流程优化:通过模型预测,快速识别潜在的高风险借款人,提高审批效率,减少不良贷款的发生。 风险预警与监控:实时监控借款人的信用状况变化,对可能出现违约的借款人进行及时预警,采取相应的风险控制措施。 信用评分系统开发:基于数据集构建信用评分模型,为借款人提供客观、公正的信用评分,辅助金融机构进行贷款定价和额度设定。 其他说明: 数据集已经过脱敏处理,确保个人隐私信息安全。

2024-03-07

深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别

内容概要: 医学糖尿病数据命名实体识别项目是一个专注于从医学文本中自动识别和提取与糖尿病相关的命名实体的项目。该项目包括一个经过精心标注的糖尿病数据集,该数据集涵盖了各种医学文献和临床记录中的糖尿病相关术语,如疾病名称、症状、药物、检查项目等。此外,项目还提供了一套实现代码,用于训练命名实体识别模型,并对新的医学文本进行自动标注。 适用人群: 本资源适用于对医学自然语言处理(NLP)感兴趣的研究人员、数据科学家、医学专家以及开发者。 使用场景及目标: 医学文献挖掘、临床决策支持、药物研发与监管; 其他说明: 数据集说明:数据集经过专业医学人员的标注和审核,确保标注的准确性和一致性。同时,数据集的规模和多样性也经过精心设计,以满足不同应用场景的需求。 实现代码说明:代码采用主流的深度学习框架编写,具有良好的可扩展性和可定制性。用户可以根据自己的需求对代码进行修改和优化,以适应不同的任务和数据集。 使用指南:项目提供详细的使用指南和技术文档,帮助用户快速上手和使用本资源。

2024-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除