20190322 今日总结

博客围绕数据分析提出多个问题并给出部分解答。涉及文件读取、DataFrame操作、数据编码与标准化、特征构造、分类算法输入、时间序列预测等,还探讨了叶绿素 - a水质划分、乡镇经纬度搜索、人口与生态环境压力关系等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Q1 读取文件输出是省略号

pd.set_option('display.width', None)	
print(X.ix[0, :])

Q2 给DataFrame加列名

pd.DataFrame({'xxx':aaa,'yyy':bbb})

Q3 独热码

from sklearn.preprocessing import OneHotEncoder
pd.get_dummies(datasets, sparse=True).astype('int')

Q4 z-score标准化

   #可以把偏态分布变为正态分布
    from sklearn.preprocessing import scale
    X = scale(pd.concat([x1, x2,], axis=1))  

Q5 样本比例不均衡

def KFoldRFR(X, y):#k折交叉验证
    score = []
    skf = ShuffleSplit(n_splits=5)
    for train_index, test_index in skf.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
    return np.mean(score)

Q6 numpy模块求平均值

np.mean()

Q7 VLOOKUP多条件查询

  =VLOOKUP(A3&E3&F3,IF({0,1},水文气象!$S$2:$S$2788,水文气象!$A$2:$A$2788&水文气象!$G$2:$G$2788&水文气象!$H$2:$H$2788),2,0)

如果A3&E3&F3在水文气象!$A 2 : 2: 2:AKaTeX parse error: Expected 'EOF', got '&' at position 5: 2788&̲水文气象!G 2 : 2: 2:GKaTeX parse error: Expected 'EOF', got '&' at position 5: 2788&̲水文气象!H 2 : 2: 2:H 2788 中 有 相 同 取 值 , 则 返 回 水 文 气 象 ! 2788中有相同取值,则返回水文气象! 2788!S 2 : 2: 2:S$2788中对应的值。

Q8 通过除法特征构造时,分母为0,何解?

可通过分母添加1e-10,但是结果不满意,算了。

Q9 叶绿素-a是否具有水质划分标准/划分能力?

没有对叶绿素-a的水质评价标准,GB中仅有对于COD等元素的单因子评价标准。另:叶绿素-a也并不能代表整体水质,不具备划分水质的能力。

Q10 分类算法的输入可否为连续值?

大部分可以,ID3不可以,所以ID4.5有改进。

Q11 时间序列预测是否可以添加其他因素进来?

AAAAAAAA目前没有看到时空+其他特征的emmmm要努力!

Q13 搜索乡镇街区的经纬度坐标

http://api.map.baidu.com/lbsapi/getpoint/index.html
爬虫没写出来,反正点也不多就手动了…………

Q14 人口与生态环境压力的关系?

并没有找到数值化的关系,但是有人口和湿度、土壤等其他因素的关系,仍需思考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值