notplaid-优快云博客

hook1.py显示函数的输入输出def hook(func): def func_hook(x): print("-- input:{}".format(x)) res = func(x) print("--output:{}".format(res)) return res return func_hook 主函数：@hooker1.ho...

2021-01-05 19:47:43 115

原创 2021-01-05

代码编写技巧一个函数不断判断，跳出当前函数，重新执行本函数，变量被改变了，模拟递归调用def fun(t) if xx return t[-2:-1]whiel(fun()) t =fun(t)

2021-01-05 17:49:26 143

原创 python 查看某个模块具有的次级名称（函数），以及某个函数的用法

1.查询某个模块下次级函数 print(dir(model))这里model为待查询的模块2.查询某个函数的用法print(help(str.replace))会显示对应的用法建议查询函数的用法直接用官方的

2020-08-21 16:01:19 221

原创 python正则，匹配文档开头有没有包含某个标志

import reprint(re.match(r'iu','liuyan1').group())比如这里匹配‘liuyan1’开头含不含有iu，为空

2019-08-06 17:54:27 409

原创 python np.round 保留为几位小数

np.round(a,b)第一个参数为待操作数据，第二个为小数点后几位

2019-05-27 21:34:12 12074

原创利用StandardScaler 进行数据标准化

from sklearn.preprocessing import StandardScalerdata = [[0, 0], [0, 0], [1, 1], [1, 1]]print(data)scaler = StandardScaler()print(scaler.fit_transform(data))运用实例

2019-05-27 21:25:18 6020

原创 python axis=0 axis=1

参考：https://www.cnblogs.com/rrttp/p/8028421.html

2019-05-27 21:10:52 202

原创 python 删除元素之后，怎么释放内存

import gcdel X_train, X_testgc.collect()这里删除内存中的空间之后，需要执行gc.collect()之后才能真正的释放内存

2019-05-27 20:59:10 11444

原创 python，循环进度条显示

from tqdm import tqdmfor i in tqdm(range(10000000)): t=1

2019-05-27 17:15:16 2516

原创 python，dataframe统计各个列的缺失值

print (train.info())

2019-05-18 16:48:20 12094

原创 python根据某一列的条件，来修改例外一列的数据

train.loc[(train['area']<2),'rentType']='合租'这里筛选出area列小于2的数据，然后将对应的rentType列修改为“合租”

2019-05-16 10:15:03 3117

原创 dataframe提取一列的年、月、日，时等

data['AnalogWriteTime']=pd.to_datetime(data['AnalogWriteTime'])data['year']=data['AnalogWriteTime'].dt.yeardata['day']=data['AnalogWriteTime'].dt.daydata['hour']=data['AnalogWriteTime'].dt.hourdat...

2019-05-13 21:05:51 11134

原创 python将一个list、dataframe、一维矩阵等分成若干段

c = thF['ai1'] #可为list，矩阵dataframe的列step = 20000d = [c[i:i + step] for i in range(0, len(c), step)]print (d)

2019-05-08 09:57:48 1859

原创 python如何快速的分割dataframe数据，采用lambda

例：train['室'] = train['houseType'].apply(lambda x: int(x[0]))train['厅'] = train['houseType'].apply(lambda x: int(x[2]))train['卫'] = train['houseType'].apply(lambda x: int(x[4]))原train['houseType...

2019-05-06 22:06:19 2860

原创使用贝叶斯方法自动调参，lgb版本

import pandas as pdimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom scipy.stats import rankdataimport lightgbm as lgbfrom sklearn import metricsimport gcfrom sklearn.m...

2019-04-17 09:54:35 1558

原创 python 动态规划之最大字串

import sysdef zhuan(s): if s == None or len(s) == 0: return 0 n=len(s) a=[] for i in range(n,0,-1): a.append(s[i-1]) optp = [[0 for col in range(n+1)] for raw in ...

2019-03-08 11:58:14 276

原创 python 创建二维数组

myList = [([0] * 3) for i in range(4)]print (myList)[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]# 只输出行数print x.shape[0] # 4# 只输出列数print x.shape[1] # 3

2019-02-27 20:41:09 271

原创用pytorch实现深度学习分类预测dnn网络

完整代码和实际数据演示，请访问此下载链接https://download.youkuaiyun.com/download/yigeng3663/10904283

2019-01-08 16:56:21 5393

原创 python 解决列表嵌套之后的恢复成不嵌套列表

predict=[[1,2],[3,4],[5,6,7]]predict = [i for j in predict for i in j]print (predict)输出：[1, 2, 3, 4, 5, 6, 7]

2019-01-08 16:38:19 1121

原创通用爬虫框架代码

import requests#from lxml import htmldef getHTMLText(url): #爬虫标准函数 try: r=requests.get(url,timeout=30) r.raise_for_status() #如果状态不是200，引发异常 r.encoding=r.apparent_enc...

2018-12-26 16:45:32 553

原创解决python3读取csv时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid st

flightinfo1=pd.read_csv('flightinfo1.csv', encoding='latin-1')加上 encoding='latin-1' 即可

2018-12-14 15:50:46 4936 1

原创 xgboost 如何导出特征重要性成dataframe

feature_important = model.get_score(importance_type='weight')keys = list(feature_important.keys())values = list(feature_important.values())data = pd.DataFrame({'feature': keys, 'score': values})d...

2018-12-03 17:33:16 1884

原创如何给一个dataframe 排序

train=train.sort_values(axis=0, ascending=False, by='列名排序基准')

2018-12-03 17:10:23 1697

原创 xgboost 如何自定义评价函数

def tpr_weight_funtion(y_true,y_predict): d = pd.DataFrame() d['prob'] = list(y_predict) d['y'] = list(y_true) d = d.sort_values(['prob'], ascending=[0]) y = d.y PosAll = pd.S...

2018-12-01 15:53:11 829

原创 python 切片函数

slice 函数，用来提取某几个字符用法如下A = '123456'T=slice(0,2)print (A[T])输出12

2018-11-30 17:47:14 1651

原创解决读取txt文件，数据集集中到一列

通过这行代码，可读取分为多列。train=pd.read_table('kddtrain2018.txt',header=None,delim_whitespace=True)

2018-11-29 16:39:24 1880

原创 dataframe 统计各个列的元素缺失率

def remove_the_null(data,data1,a): #第二个参数：当缺失率达到多少时，直接删除 t=[] for col_name in data.columns: changdu = len(data[col_name]) cnt = list(data[col_name].isna()).count(True) ...

2018-11-16 20:03:49 7681

原创 python，dataframe，如何判断某列元素为空，或者判断某个值为空

1.判断某列元素为空 print(train['列名'].isna()) 那么将会输出一系列 True 和False，代表对应结果，True表示当前值为空2.判断某个值为空 print (np.isnan(train['列名'][0]))输出True 或者False ...

2018-11-16 17:19:52 37177

原创读取csv文件的前多少行

df = pd.read_csv(csv_path, nrows=200)读取前200行，参数nrows 可确定读取前多少行

2018-11-10 11:41:32 9711 1

原创解决Columns (49) have mixed types. Specify dtype option on import or set low_memory=False.

出现这个是因为，列49（从0开始算起），里面存在数据混合类型，此时不应设置 set low_memory=False，这样会导致数据丢失。而应该通过 dtype 格式来设置类型train_df=pd.read_csv('train-flattened.csv',dtype={'fullVisitorId': 'str'})...

2018-11-08 10:38:39 11743 2

原创 python 找到dataframe中哪些列是常数列即固定值

const_cols = [c for c in train_df.columns if train_df[c].nunique(dropna=False) == 1] 这里的train_df 即为待查找的dataframe

2018-11-07 16:44:43 1248

原创 python 找到两个列表或元组的不同地方

a=[1,2,3]b=[2,3,4]print(set(a).difference(set(b)))找到不同点为 1

2018-11-07 16:34:40 2613

原创 windows下利用caffe训练自己的图像分类模型

1.通过自己的数据生成对应的数据标签，分为train和txt，第一列为图片路径 2. 生成lmdb文件第一个路径为你图片保存的目录，第二个为第一步生成的txt保存的目录，第三个是生成的lmdb文件保存的目录convert_imageset.exe --shuffle --resize_height=256 --resize_width=256 C:/Users/ja...

2018-11-03 11:32:59 1454

原创实现k折交叉，并取每个模型的平均值

from sklearn.model_selection import KFoldX=train_datakf = KFold(n_splits=6)modelsave=[] #用来保存模型for train_index, test_index in kf.split(X): model=train_t(X.reindex(train_index).reset_...

2018-11-03 11:19:07 1416

window环境下编译好的caffe

用pytorch实现dnn

空空如也