- 博客(13)
- 收藏
- 关注
原创 随机森林回归-实战案例
n_estimators :树的数量,默认是10,就是你准备在你的森林里种多少树。这个参数是最重要的,树的数量决定了最后的准确性,但是也会让你的运行速度变的很慢,所以需要不断的测试去决定。max_features:随机森林允许单个决策树使用特征的最大数量。Auto/None/sqrt :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。默认是autoint:是整数float:百分比选取log2:所有特征数的log2值。
2024-11-21 11:06:48
1367
原创 绘制中国地图热力图
不管你怎么处理数据,用什么模块读取数据,最终要保证数据要清洗成上图中和data1一样的数据格式,即[['procinve1','value1'],['procinve2','value2']],此处要注意。生成的结果是名称为'各省份数字乡村指数test.html'的网页文件,该文件存在于代码所在文件夹中,双击会自动使用默认浏览器打开即可。因为我们这里只画2022年的热力图,所以只需要关注2022年的数值,以及带入热力图中的数据格式就行。内蒙古自治区、宁夏回族自治区等自治区必须使用全称,不可用简称。
2024-10-28 22:40:13
1314
原创 Python pdf与docx格式互转
在日常工作中经常遇到docx文件转换成pdf文件,或者pdf文件转换成docx文件,前者word和wps都可以轻松完成,但是pdf转docx往往不能免费使用,这里可以借助Python轻松实现pdf转docx。注意这里pdf转word是对文字或者图片的识别,故而新的docx文件的格式可能会与原文件有误差。虽然word转pdf可以使用办公软件完成,这里依然分享Python实现word转pdf的代码。
2024-06-09 10:04:43
393
1
原创 熵权法-实际案例
根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,并且信息熵值越小,指标的离散程度(无须程度)越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。通过pandas读取数据,看看原始数据的本来面目,再根据数据的正向性(越大越好)或负向性(越小越好)进行0-1标准化,注意标准化的方法有很多,此处使用的标准化方法并不是唯一的,也不一定是最好的,标准化的方法要根据实际情况选择相对合理的。
2023-12-24 22:21:35
2221
4
原创 Mysql 之求平均次日留存率、用户连续签到(登录)问题(含lag、lend、日期函数用法)
(1)、题目:现在运营想要查看用户在某天刷题后第二天还会再来刷题的平均概率。请你取出相应数据。(2)、数据:其中question_practice_detail是表名,id类似索引无实际意义,device_id是设备id不唯一,quest_id是所做题目的id,result是答题结果,date是日期。(3)、问题分解表里的数据可以看作是全部第一天来刷题了的,那么我们需要构造出第二天来了的字段,因此可以考虑用left join把第二天来了的拼起来,限定第二天来了的可以用。
2023-05-11 09:36:51
1353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人