- 博客(47)
- 资源 (2)
- 收藏
- 关注
原创 pycharm 报错:Failed to transfer file could not close the output stream for file
报这种错,是因为服务器上的内存空间不够用导致文件上传出错,直接清理服务器上的内存空间,这样便不会报错。
2021-07-21 11:08:18
4333
1
原创 python dataframe .to_csv的一个bug
当字符串中 出现\r时 python会直接跳到例外一行(框)例如pd.DataFrame([[1,'a\rb',2]])将会出现乱序因此为避免
2021-06-03 20:31:33
468
原创 dataframe读数据时,文件名为中文的处理办法
采用 o = open(data_path, encoding = 'utf-8')然后再使用pd.read_csv来读数据
2021-05-30 15:44:49
628
原创 2021-01-05
hook1.py显示函数的输入输出def hook(func): def func_hook(x): print("-- input:{}".format(x)) res = func(x) print("--output:{}".format(res)) return res return func_hook 主函数:@hooker1.ho...
2021-01-05 19:47:43
93
原创 2021-01-05
代码编写技巧一个函数不断判断,跳出当前函数,重新执行本函数,变量被改变了,模拟递归调用def fun(t) if xx return t[-2:-1]whiel(fun()) t =fun(t)
2021-01-05 17:49:26
118
原创 python 查看某个模块 具有的次级名称(函数),以及某个函数的用法
1.查询某个模块下次级函数 print(dir(model))这里model为待查询的模块2.查询某个函数的用法print(help(str.replace))会显示对应的用法建议查询函数的用法直接用官方的
2020-08-21 16:01:19
183
原创 python正则,匹配文档开头有没有包含某个标志
import reprint(re.match(r'iu','liuyan1').group())比如这里匹配‘liuyan1’开头含不含有iu,为空
2019-08-06 17:54:27
389
原创 利用StandardScaler 进行数据标准化
from sklearn.preprocessing import StandardScalerdata = [[0, 0], [0, 0], [1, 1], [1, 1]]print(data)scaler = StandardScaler()print(scaler.fit_transform(data))运用实例
2019-05-27 21:25:18
5931
原创 python 删除元素之后,怎么释放内存
import gcdel X_train, X_testgc.collect()这里 删除内存中的空间之后,需要执行gc.collect()之后才能真正的释放内存
2019-05-27 20:59:10
11377
原创 python根据某一列的条件,来修改例外一列的数据
train.loc[(train['area']<2),'rentType']='合租'这里筛选出area列小于2的数据, 然后将对应的rentType列修改为“合租”
2019-05-16 10:15:03
3078
原创 dataframe提取一列的年、月、日,时等
data['AnalogWriteTime']=pd.to_datetime(data['AnalogWriteTime'])data['year']=data['AnalogWriteTime'].dt.yeardata['day']=data['AnalogWriteTime'].dt.daydata['hour']=data['AnalogWriteTime'].dt.hourdat...
2019-05-13 21:05:51
11080
原创 python将一个list、dataframe、一维矩阵等分成若干段
c = thF['ai1'] #可为list,矩阵dataframe的列step = 20000d = [c[i:i + step] for i in range(0, len(c), step)]print (d)
2019-05-08 09:57:48
1825
原创 python如何快速的分割dataframe数据,采用lambda
例:train['室'] = train['houseType'].apply(lambda x: int(x[0]))train['厅'] = train['houseType'].apply(lambda x: int(x[2]))train['卫'] = train['houseType'].apply(lambda x: int(x[4]))原train['houseType...
2019-05-06 22:06:19
2820
原创 使用贝叶斯方法自动调参,lgb版本
import pandas as pdimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom scipy.stats import rankdataimport lightgbm as lgbfrom sklearn import metricsimport gcfrom sklearn.m...
2019-04-17 09:54:35
1520
原创 python 动态规划之最大字串
import sysdef zhuan(s): if s == None or len(s) == 0: return 0 n=len(s) a=[] for i in range(n,0,-1): a.append(s[i-1]) optp = [[0 for col in range(n+1)] for raw in ...
2019-03-08 11:58:14
251
原创 python 创建二维数组
myList = [([0] * 3) for i in range(4)]print (myList)[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]# 只输出行数print x.shape[0] # 4# 只输出列数print x.shape[1] # 3
2019-02-27 20:41:09
241
原创 用pytorch实现深度学习分类预测dnn网络
完整代码和实际数据演示,请访问此下载链接https://download.youkuaiyun.com/download/yigeng3663/10904283
2019-01-08 16:56:21
5357
原创 python 解决列表嵌套之后的 恢复成不嵌套列表
predict=[[1,2],[3,4],[5,6,7]]predict = [i for j in predict for i in j]print (predict)输出:[1, 2, 3, 4, 5, 6, 7]
2019-01-08 16:38:19
1088
原创 通用爬虫框架代码
import requests#from lxml import htmldef getHTMLText(url): #爬虫标准函数 try: r=requests.get(url,timeout=30) r.raise_for_status() #如果状态不是200,引发异常 r.encoding=r.apparent_enc...
2018-12-26 16:45:32
514
原创 解决python3读取csv时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid st
flightinfo1=pd.read_csv('flightinfo1.csv', encoding='latin-1')加上 encoding='latin-1' 即可
2018-12-14 15:50:46
4886
1
原创 xgboost 如何导出特征重要性成dataframe
feature_important = model.get_score(importance_type='weight')keys = list(feature_important.keys())values = list(feature_important.values())data = pd.DataFrame({'feature': keys, 'score': values})d...
2018-12-03 17:33:16
1834
原创 如何给一个dataframe 排序
train=train.sort_values(axis=0, ascending=False, by='列名排序基准')
2018-12-03 17:10:23
1662
原创 xgboost 如何自定义评价函数
def tpr_weight_funtion(y_true,y_predict): d = pd.DataFrame() d['prob'] = list(y_predict) d['y'] = list(y_true) d = d.sort_values(['prob'], ascending=[0]) y = d.y PosAll = pd.S...
2018-12-01 15:53:11
789
原创 python 切片函数
slice 函数 ,用来提取某几个字符 用法如下A = '123456'T=slice(0,2)print (A[T])输出12
2018-11-30 17:47:14
1627
原创 解决读取txt文件,数据集集中到一列
通过这行代码,可读取分为多列。train=pd.read_table('kddtrain2018.txt',header=None,delim_whitespace=True)
2018-11-29 16:39:24
1826
原创 dataframe 统计各个列的元素缺失率
def remove_the_null(data,data1,a): #第二个参数:当缺失率达到多少时,直接删除 t=[] for col_name in data.columns: changdu = len(data[col_name]) cnt = list(data[col_name].isna()).count(True) ...
2018-11-16 20:03:49
7628
原创 python,dataframe,如何判断某列元素为空,或者判断某个值为空
1.判断某列元素为空 print(train['列名'].isna()) 那么将会输出一系列 True 和False, 代表对应结果,True表示当前值为空2.判断某个值为空 print (np.isnan(train['列名'][0]))输出True 或者False ...
2018-11-16 17:19:52
37076
原创 读取csv文件的前多少行
df = pd.read_csv(csv_path, nrows=200)读取前200行,参数nrows 可确定读取前多少行
2018-11-10 11:41:32
9653
1
原创 解决Columns (49) have mixed types. Specify dtype option on import or set low_memory=False.
出现这个是因为,列49(从0开始算起),里面存在数据混合类型,此时不应设置 set low_memory=False,这样会导致数据丢失。而应该 通过 dtype 格式来设置类型train_df=pd.read_csv('train-flattened.csv',dtype={'fullVisitorId': 'str'})...
2018-11-08 10:38:39
11670
2
原创 python 找到dataframe中哪些列是常数列 即 固定值
const_cols = [c for c in train_df.columns if train_df[c].nunique(dropna=False) == 1] 这里的train_df 即为待查找的dataframe
2018-11-07 16:44:43
1215
原创 python 找到两个列表或元组的不同地方
a=[1,2,3]b=[2,3,4]print(set(a).difference(set(b)))找到不同点为 1
2018-11-07 16:34:40
2589
原创 windows下利用caffe训练自己的图像分类模型
1.通过自己的数据生成对应的数据标签,分为train和txt,第一列为图片路径 2. 生成lmdb文件第一个路径为你图片保存的目录,第二个为第一步生成的txt保存的目录,第三个是生成的lmdb文件保存的目录convert_imageset.exe --shuffle --resize_height=256 --resize_width=256 C:/Users/ja...
2018-11-03 11:32:59
1407
原创 实现k折交叉,并取每个模型的平均值
from sklearn.model_selection import KFoldX=train_datakf = KFold(n_splits=6)modelsave=[] #用来保存模型for train_index, test_index in kf.split(X): model=train_t(X.reindex(train_index).reset_...
2018-11-03 11:19:07
1373
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人