- 博客(18)
- 收藏
- 关注
原创 【动手学数据分析】Task03笔记
建模:前两个task中学会了怎么清洗数据准备数据,相当于得到了喂给模型的建模数据。判断是否存活,所以是个监督问题。下面这个图实在是有灵性。【思考】划分数据集的方法有哪些? 留出法、k折验证法 为什么使用分层抽样,这样的好处有什么?分层抽样的精度比简单随机抽样的精度高单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。参数说明:train_test_split (*arrays...
2020-08-26 18:05:51
246
原创 【动手学数据分析】Task02笔记汇总(包括第二章所有的笔记)
一.学习到了数据缺失值、异常值的处理例子中Age列为数值型,可以考虑用均值填充。Cabin缺失值较多应该填充,Embarked缺失值只有2个,可以考虑dropna删除掉。几种填充的做法df[df['Age']==None]=0df[df['Age'].isnull()] = 0df[df['Age'] == np.nan] = 0特征可以被分为数值(离散型、连续型)、文本(类别、描述字符串),数值型一般可以直接用来训练,但进行分箱操作可以离散化会更稳定。文本型往往需要转换成数值.
2020-08-19 19:41:52
264
原创 【动手学数据分析】Task01笔记
复习了pandas比较基础的一些内置函数,对泰坦尼克号数据的观察比较有意思,单是对票价、年龄、家族人数排序就能看出很多故事。
2020-08-18 10:04:06
160
原创 【数据挖掘】Task04笔记汇总
1. 以下是常用的模型介绍线性回归模型:https://zhuanlan.zhihu.com/p/49480391决策树模型:https://zhuanlan.zhihu.com/p/65304798GBDT模型:https://zhuanlan.zhihu.com/p/45145899XGBoost模型:https://zhuanlan.zhihu.com/p/868167...
2020-03-25 21:11:56
164
原创 【数据挖掘】Task03笔记汇总
写这个的时候已经一口气看完task05了,有点没头绪,先把笔记写一写。1. 养成看数据的好习惯train.head()train.columns2.errors='coerce' 无效解析将被设置为NaT3.https://blog.youkuaiyun.com/DataCastle/article/details/84323603pd.to_datetime库4....
2020-03-25 20:52:34
137
原创 【数据挖掘】Task02笔记汇总
通过EDA的流程进一步了解了Pandas,Seaborn,Missingno的用法。1. 通过看头和尾来大致了解数据情况,不放心的话执行一步看一步2. 关于sort_values(inplace=False)可以参考:https://blog.youkuaiyun.com/MsSpark/article/details/831541283. 然后要看看缺失值情况如何,个数小的时候选择...
2020-03-24 17:36:12
129
原创 【刷题】牛客题库-数据结构随机90题笔记01
边刷题边学。有些题其实就只涉及到很简单的知识点。先记一些零碎的放在这里。1.入栈出栈2.二叉排序树中左子树上所有结点的值均小于根结点的值3.遍历排序:前序:根左右、中序:左根右、后序:左右根 根据前序和后序无唯一中序4.设用链表作为栈的存储结构则退栈操作必须判别栈是否为空5.线性结构包括:栈,队列,线性表、线性表包括:顺序表(顺序结构),链表(链结构)6.从源点到...
2020-03-21 15:49:29
672
原创 【Crossin的编程教室】 Python入门教程笔记02
写了几个功能性小程序(“面向过程”的编程)之后,就一直想着能自己写个包出来,有class有object的。46.面向对象1)最主要的概念为:class和object,类为抽象,对象为实例。域和方法(也就是m)被合称为类的属性。2)class中的‘方法’为函数,class和object的域为属于他们的变量,对应分为类变量和实例变量。3)乐器是class,弹是方法之一(比如吉他可...
2020-03-04 09:28:54
401
原创 【Crossin的编程教室】 Python入门教程笔记01
被推荐这个教程之后就开始慢慢看,一下子就被里面这句话吸引了:“如果你发现照我说的去做,没有得到预期的结果,那多半是我没说清。千万不要觉得为什么编程这么难,搞了半天也不对。导致错误的原因,往往只是一点点小偏差,稍微改一下就好了。”所以准备记一下之前写代码的时候没有注意到的问题,同时看看人家是怎么有趣地做教程的。7.if冒号要注意用英文标点,tab和空格不要混用,最好统一用某一个。i...
2020-03-03 13:49:56
812
原创 【瞎逛】音乐碎碎笔记 01
有时候等模型学习时间有点长,甚至能看完好几个教学视频,就在这里记点笔记好了。1.【非专业学生原创音乐制作全流程 - 如何作词作曲】:https://www.bilibili.com/video/av86558831跟我想的差不多,主要是get到了押韵app,感觉能用RNN写出来的奇怪歌词和这个app疯狂攒一波歌词了。2.【如何深度分析歌曲 赛平吉他教学】:https://www.bil...
2020-02-28 15:02:16
310
原创 【动手学深度学习】Task06笔记汇总
Task06:批量归一化和残差网络;凸优化;梯度下降批量归一化和残差网络关于BN:1.相比起“标准化”,批量归一化运用于深度模型,欲保持NN中间输出数值的稳定性。2.关于运用BN的位置:在全连接层中的线性变换和激活函数之间 在卷积层的卷积计算和激活函数之间3.全连接层BN细节:加入了小的正常数epsilon保证分母非零, 引入了可学习参数(非超参):拉伸、偏移。...
2020-02-25 22:01:06
173
原创 【动手学深度学习】Task07笔记汇总
Task07:优化算法进阶;word2vec;词嵌入进阶优化算法进阶:word2vec:词嵌入进阶:马上就写完了!!!!
2020-02-25 21:41:29
235
原创 【动手学深度学习】Task05笔记汇总
Task05:卷积神经网络基础;leNet;卷积神经网络进阶相比taks04,感觉这边比较能看得下去,就先看了。卷积神经网络基础1.卷积和池化的计算概念不难理解,本质还是矩阵运算,又在感叹之前老师在代数学里埋的种子。2.二者最大的区别是,池化层好像没有自己学什么,只是数值的搬运工,然后在模型里的日常工作是降维。但卷积层应该是学到新东西了,适当设置步长也能代班降维。想到之前有个朋...
2020-02-18 12:12:22
199
原创 【动手学深度学习】Task03笔记汇总
Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶过拟合、欠拟合及其解决方案第一反应是训练数据集大小带来的影响,或许有很多研究怎么丰富数据集的文献吧,数据集大,那么复杂的模型就更好发挥作用。1.过拟合常用的模型层面的应对方法:权重衰减,也即L2-Norm Regularization。从公式和名字易见,该方法加入了对权重系数的2范数作为惩罚项从而学...
2020-02-18 10:42:52
272
原创 【动手学深度学习】Task02笔记汇总
Task02主要内容:文本预处理;语言模型;循环神经网络基础总的来说学到了分别基于统计和基于神经网络的语言模型文本预处理:数据预处理被单独拎出来讲,可见这一块是挺棘手的,整体内容知识较少,所需要琢磨的代码细节比较多。处理步骤:读取文本并分词(去重) 建立字典:一词一索引(构建二者之间的双射)1.re正则补充:https://blog.youkuaiyun.com/qq_411...
2020-02-14 12:30:44
158
原创 【动手学深度学习】Task01笔记汇总
笔记布局为整体学习感受和知识补充,包括在课后习题和在讨论区学习到的以及torch小知识整理。没有贴大段代码,因为感觉用得多查得多细节就会慢慢清楚了。比较适合自己的学习方式:1.导出并自己跑一遍notebook2.带着疑问去看代码讲解视频,稍微查查不懂的大点,暂时不耽溺于细节3.做习题、看原书最后归纳笔记4.nn.sequential这种东西真的还挺一目了然的,但过度依赖深度学习...
2020-02-14 11:26:41
217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人