Phil？-优快云博客

原创 Python 的re模块提供了re.sub用于替换字符串中的匹配项

re.sub(pattern, repl, string, count=0, flags=0)参数：pattern : 正则中的模式字符串。repl : 替换的字符串，也可为一个函数。string : 要被查找替换的原始字符串。count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。flags : 编译时用的匹配模式，数字形式。前三个为必选参数，后两个为可选参数。...

2022-04-15 19:09:37 1094

原创 x.group(1)的用法

The “group” feature of a regular expression allows you to pick out parts of the matching text.Suppose for the emails problem that we want to extract the username and host separately. To do this, add parenthesis ( ) around the username and host in the patt

2022-04-15 18:42:12 428

原创 P129语言模型循环生成列表

#语言模型的输入与标签：从独立样本集合中构建批次输入输出inputs = [torch.tensor(ex[0]) for ex in examples]targets = [torch.tensor(ex[1]) for ex in examples]将examples中的数据按行依次放入ex中，然后取得ex中的ex[i]元素，放入列表inputs中list_0 = [x*x for x in range(5)]print(list_0)#输出：#[0, 1, 4, 9, 16].

2021-11-09 20:36:47 96

原创 2021-08-01

集成学习案例二（蒸汽量预测）背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力量

2021-08-01 00:16:26 300

原创 2021-07-29

集成学习案例一（幸福感预测）背景介绍此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。比赛的数据使用的是官方的《中国综合社会调查（CGSS）》文件中的调查结果中的数据，其共包含有139个维度的特征，包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子女、家庭资本等等）、社会态度（公平、信用、公共服务）等特征。数据信息赛题要求使用以上 139 维的特征，使用 8000 余组数据进行对于个人幸福感的预测（预测值为1，2，3，4，5，其中1代表幸福感最

2021-07-29 22:17:07 408

原创集成学习boosting

1.adaboost的基本思路参考：https://www.cnblogs.com/pinard/p/6133937.html2.adaboost与gbdt的区别与联系3.boosting与bagging的区别，如何提升模型精度Boosting方法是集成学习中重要的一种方法，在集成学习方法中最主要的两种方法为Bagging和Boosting，在Bagging中，通过对训练样本重新采样的方法得到不同的训练样本集，在这些新的训练样本集上分别训练学习器，最终合并每一个学习器的结果，作为最终的学习结果在

2021-07-25 23:53:28 212 1

原创集成学习第四次

1.什么是bootstrapsBootstrap又称自展法，是用小样本估计总体值的一种非参数方法，在进化和生态学研究中应用十分广泛。例如进化树分化节点的自展支持率等。Bootstrap的思想，是生成一系列bootstrap伪样本，每个样本是初始数据有放回抽样。通过对伪样本的计算，获得统计量的分布。例如，要进行1000次bootstrap，求平均值的置信区间，可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算，即可获得置信区间。已经证明，在初始样本足够大的情况

2021-07-23 00:51:31 229

原创 2021-07-21集成学习第三次大作业

1.回归问题和分类问题的联系和区别，如何利用回归问题理解分类问题2.为什么分类问题的损失函数可以是交叉熵而不均方误差参考：https://blog.youkuaiyun.com/liuweiyuxiang/article/details/907073753.线性判别分析和逻辑回归在估计参数方面有什么异同点4.从零推导SVM5.二次判别分析，线性判别分析，朴素贝叶斯之间的联系和区别6.使用python+numpy实现逻辑回归import numpy as npclass logistic: de

2021-07-21 01:32:03 135

原创集成学习chap3

1.请用一个具体的案例解释什么是偏差和方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。2.偏差与方差和误差之间的关系Error = Bias + Variance3.训练误差与测试误差之间的联系与区别，如何估计测试误差训练过程中的误差，就是训练误差。在验证集上进行交叉验证选择参数（调参），最终模型在验证集上的误差就是验证误差。

2021-07-19 01:28:37 117

原创集成学习chap2

1）详细阐述线性回归模型的最小二乘表达：我们需要衡量真实值yiy_iyi与线性回归模型的预测值wTxiw^Tx_iwTxi之间的差距，在这里我们和使用二范数的平方和L(w)来描述这种差距，即：L(w)=∑i=1N∣∣wTxi−yi∣∣22=∑i=1N(wTxi−yi)2=(wTXT−YT)(wTXT−YT)T=wTXTXw−2wTXTY+YYT因此，我们需要找到使得L(w)最小时对应的参数w，即：w^=argmin L(w)为了达到求解最小化L(w)问题，我们应用高等数学的知识，使用求导来解决这个

2021-07-16 00:06:00 142 2

原创集成学习第一次大作业

np.power(x,y)#x的y次方#一个参数默认起点0，步长为1 输出：[0 1 2]a = np.arange(3)#两个参数默认步长为1 输出[3 4 5 6 7 8]a = np.arange(3,9)#三个参数起点为0，终点为3，步长为0.1 输出[ 0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2. 2.1 2.2

2021-07-14 01:04:13 104

原创 2021-02-22

TypeError Traceback (most recent call last)/mnt/train.py in <module> 251 pretrained_model = './bert_pretrain_model' 252 tokenizer_model = './bert_pretrain_model'--> 253 train(batchSize=16, devi

2021-02-22 12:29:33 316

weixin_43141656的博客