**
3.18 模型评估参数 地理位置转换
**
np.linspace(0.0, 1.0, num=30)
linspace函数可以生成元素从0到1等间隔的数量为为30个的一个list
通过绘制学习曲线图来判断模型的状态:过拟合还是欠拟合
1、训练和验证都低于准确率,说明模型欠拟合,
要增加模型的复杂度,比如,增加特征、增加树的深度、减小正则项等等,此时再增加数据量是不起作用的。
2、训练的模型符合我们需要的准确率,但是验证模型要低于准确率,说明模型过拟合(训练的很好,但是预测的准确率不好)
增大分裂节点样本数、增大样本数、减少特征数等等。
RMSE MAE 与标准差的对比
https://blog.youkuaiyun.com/capecape/article/details/78623897
RMSE与MAE对比:RMSE相当于L2范数,MAE相当于L1范数。次数越高,计算结果就越与较大的值有关,而忽略较小的值,所以这就是为什么RMSE针对异常值更敏感的原因(即有一个预测值与真实值相差很大,那么RMSE就会很大)。
python调用百度地图API实现经纬度换算
作者:博观厚积
链接:https://www.jianshu.com/p/773ff5f08a2c/
一、初始化数据:csv格式的数据表格
二、注册百度地图api,获取免费的密钥,http://lbsyun.baidu.com/
首页点击申请密钥按钮,经过填写个人信息、邮箱注册等,成功之后在开放平台上点击“创建应用”,填写相关信息,在这里特别说明的是,在IP白名单框里,如果不清楚自己的IP地址,最好设置为:0.0.0.0/0,
虽然百度提醒它会有泄露使用的风险,但是有时候你把你自己的IP地址输进去可能也不行。提交后,在你创建应用的访问应用(AK)那一栏就是你的密钥。
三、构造经纬度获取函数
四、写入文件中
具体详情见代码
在Pycharm中创建项目时,注意文件夹的名称不要和你要导入的某个包名的名称相同,否则会发生导入模块找不到的错误
**
3.19 杂记
**
读取数据,描述数据
对数据类型进行转换
train_df[[‘floors’, ‘houseStruct’,‘decoration’,‘isElevator’]] = train_df[[‘floors’, ‘houseStruct’,‘decoration’,‘isElevator’]].convert_objects(convert_numeric=True)
.astype(float)进行强制转换
待做:
晚上回去安装 conda update scikit-learn
Python库的使用
机器学习
对具有时间序列的模型处理时,在分割数据的时候必须要考虑到时间
**
3.20 杂记
**
基于时间序列的模型在短时间内比较难搞,现考虑拆分时间
数据集重新汇总:
选取全国数据的2018年2019年的数据
今日遇到问题:
百度地图ak有限额配置,进行开发者认证
pandas.dataframe怎么把列变成索引,通过set_index来处理,df2 = df1.set_index(‘name’)
学习Python股票预测
数据预处理
缺失值的查找,用pandas查找