- 博客(4)
- 收藏
- 关注
原创 LCSTS数据集正确的处理方法
LCSTS数据集正确的处理方法原始txt在4w行的时候可能漏了换行符,导致pd.read_table方法会报错,就算设置了error_bad_lines也会导致直接跳过,后面无法对齐。用read_line一行行读取又太慢。所以正确的方法是用read_csv里面自带的正则import pandas as pda=pd.read_table('PART_I.txt',header=None,warn_bad_lines=True,error_bad_lines=False,sep='<[/d|/s|
2021-09-14 11:01:43
699
1
原创 Sklearn中的SVM预测后验概率的方法
SVC中计算点到超平面的距离使用svc.decision_function(data),计算概率的公式是1/(1+exp(A*距离+B)可以直接使用svc.predict_proba()或者1/(1+np.exp(svc.probA_*svc.decision_function(data)+svc.probB_)),结果一样,proA_和proB_是在训练集上通过通过一维logistic回归...
2020-04-12 20:15:42
2274
2
原创 pandas.Dataframe.corr(method='spearman')代码效率极低,会占用大量资源
秩相关系数是将数值换成顺序后的pearson相关系数,也就是说pandas.Dataframe.corr(method=‘spearman’)和pandas.Dataframe.rank().corr(method=‘pearson’)是等价的,但是前者慢到了令人发指的地步import pandas as pdimport numpy as npimport timecor=pd.Dat...
2020-02-04 11:49:11
3242
1
原创 matlab求所有最短路的弗洛伊德floyd算法
参考https://blog.youkuaiyun.com/kabuto_hui/article/details/82886826,在他的基础上改的参数都一样,这个改了一下能算出两点之间所有的最短路,算复杂网络的时候用到的,改了半天,算出的路由矩阵是cell,path给出一个每列记录一条路径,列数等于最短路数的矩阵,如果一个如果一条最短路经过的点较少,就会一直重复终点function path=Path(...
2019-12-22 22:37:10
1140
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅