# 当作为主程序运行时,print函数会执行,作为包被调用时不起作用
# 建议一直当作程序入口
if __name__ == '__main__':
print("hello world")
文件
# with案例
with open(r'test01.txt', 'r') as f:
# 按行读取内容
strline = f.readline()
# 此结构保证能够完整读取文件知道结束
while strline:
print(strline)
strline = f.readline()
语法糖
字典的表达式:a={i: for i in lst if i%2==0)
yield:
装饰器:为已经存在的对象或函数添加额外功能,
查漏补缺
int函数:截取取整
zip:将可迭代的对象作为元素,将对应的元素打包成元组,然后返回元组组成的对象,若想显示内容需要list()转换成列表展示;*号运算符将元组解压成列表,返回二维矩阵。可以采用多个变量来接受成列表显示。通常搭配for 循环进行搭配迭代,此时可以循环多个参数(即实现并行迭代)。
fit方法 return self :使得fit 方法后还可以接方法使用,允许方法的链式调用。
enumerate:将可迭代的序列的索引组合成一个元组组成的序列。
numpy库
numpy.random.RandomState 函数用法:RandomState(seed)是一个类,seed默认为0,可以生成对象再进行方法的使用。
其normal 方法:normal(loc=0,scale=1.0,size=None) 从高斯分布中获取随机数,参数意义:高斯分布的中心;分布的宽度:输出的维数形状
np.raval()方法,将多维数组拉成一位,非复制型改变。
np.bincount(a)函数,返回a的各类值的个数组成的列表。
np.clip 函数将数组的最大最小值进行限制。
np.stack 堆叠
np.hstack 沿第二个括号进行堆叠,剩下的看作一个整体吗,将对应的相加
np.vstack 沿第一个括号进行堆叠,
df.dropna()各参数,how=‘all’ 只有当行中所有列的元素都为nan时,才将此行进行删除;thresh=4,含有四个以上有意义值时不被删除;subset=[‘c’] 只有子集c列中含义nan时才删除相应的行。
as_matrix() 将表格转化为矩阵。
coef_和intercept_都是逻辑回归和线性回归模型参数,即为coef_为w1到w4 ,intercept_为w0
matplotlib库
contourf :绘制等高线并且填充。
pandas
skew 求偏度
pd.Categorical 常常是结合他的 codes 属性来一起使用的 , 即
pd.Categorical( list ).codes 这样就可以直接得到原始数据的对应的序号列表,通过这样的处理可以将类别信息转化成数值信息 ,这样就可以应用到模型中去了。
还可以直接将 df 中的所有 categorical 变量都进行dummies
df = pd.get_dummies(df, drop_first=True)
df.at[] 获取某个位置的元素
df.groupby([‘Title’])[‘PassengerId’].count() 计算Title 中的 Passengerld 的聚合。
sklearn库
class sklearn.feature_selection.SelectKBest(score_func=, k=10)
当score_runc为chi2时,分数函数为卡方分布。