数据集放在若干个TXT文档中,内容是纯浮点数,数据标签在TXT的文件名中已给出。
流程就是先把数据读入,然后再用sklearn中的svm算法进行处理。
读入时用到了pandas。
df1 = pd.read_table("D:/PycharmProjects\\test1\\venv\\FanWei\\1-3\\S001C001P001R001A001_0.txt", header=None, sep=',') df1.loc[:, 75]=0
问题1:直接复制的路径再python中无法读取。
原来是python中路径要用正斜杠/,用反斜杠\时有时会出错,可以使用两个\\进行转义。
问题2:pandas中readtable无法读取TXT中的数据
检查了一遍数据,排列没问题。察觉到可能是分隔符的问题,readtable的默认分隔符是制表符,加上sep参数后解决。
问题3:如何在最后一列添加上统一的标签
使用.loc函数,具体的使用方法还要再看看,东西好多
df = pd.concat([df1, df2, df3, df4, df5, df6, df7, df8, df9, df10])
问题4.如何将所有的database连接
使用.concat方法
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1, train_size=0.8)
问题5:train_test_split报错
原因好像是这个版本的sklearn不自带这个方法 ,在开头引入就可以了
from sklearn.model_selection import train_test_split
问题7:svm算法中的几个参数会对算法的准确度产生影响
继续研究