
学习笔记
文章平均质量分 68
Chaos_Happy
走过最长的路就是数据工作的路——表哥-机器学习-NLP-深度学习-CV-LLM
展开
-
基于Kaggle入门项目预测Titanic乘客的获救的数据进行的模型探究(三)
一日三省又是拖沓的一天,今天只是重新训练了xgb模型之前文章的链接:基于Kaggle入门项目预测Titanic乘客的获救的数据进行的模型探究(一)基于Kaggle入门项目预测Titanic乘客的获救的数据进行的模型探究(二)提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一日三省一、哑变量与One-hot二、重新训练XGB模型AUC与 F1三、模型预测总结一、哑变量与One-hot昨晚本来是立了flag,准备通过哑变量重新对离散变量编码。但是突然反应过来,哑变量原创 2021-06-28 02:55:56 · 321 阅读 · 0 评论 -
基于Kaggle入门项目预测Titanic乘客的获救的数据进行的模型探究(二)
基于Titanic的数据集做的模型探究(二)今天没在状态,只用了one-hot提升了编码的效果文章目录基于Titanic的数据集做的模型探究(二)一、One-hot编码 二、特征工程中的修改1.One-hot编码2.预测结果总结一、One-hot编码 One-hot编码是一种编码方式,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效.举个例子:性别广义上只有2个状态,分别是‘男’和‘女’。使用one-ho原创 2021-06-26 22:23:35 · 438 阅读 · 0 评论 -
基于Kaggle入门项目预测Titanic乘客的获救的数据进行的模型探究(一)
基于Titanic的数据集做的模型探究(一)基于XGboost快速搭建分类模型文章目录基于Titanic的数据集做的模型探究(一)前言一、数据的基本情况二、数据处理(简单处理)1.数据清洗及缺失值填充2.特征工程3. 模型的搭建(XGboost)4. 模型预测总结前言知道Kaggle已经好长时间了,账号也建立4年了,但是一直没有真正的动手来写过项目. 这个titanic的项目数据前前后后下载了太多次了,现在终于有点时间可以做了. 这个数据应该是比较简单的一个数据集了,所以我想通过这个数据集来对原创 2021-06-26 02:33:23 · 431 阅读 · 0 评论 -
Python Sklearn库常用函数(1)
目录数据预处理线性回归模型验证分类SVM聚类神经网络数据预处理from sklearn import preprocessing#均值移除(Mean removal)preprocessing.scale(data)#范围缩放(Scaling)#设置MinMaxScaler处理器data_sclar = preprocessing.MinMaxScaler(...原创 2019-02-27 16:20:31 · 3482 阅读 · 0 评论 -
基于Python的数据结构(一)-- 排序算法
基于Python的数据结构内容说明排序冒泡排序选择排序插入排序希尔排序(递减递增排序)归并排序快速排序内容说明最近在面试,在面试过程中面试官经常会要求手写代码。其中大都是数据结构及其查找和排序的基本算法,所以基于python-data-structure-cn这本书的内容对数据结构进行个人理解及代码实现。由于个人的阅读习惯原因,分享内容的顺序可能与书中不一致。原书地址如下,有学习的小伙伴可以直...原创 2019-04-04 01:31:35 · 306 阅读 · 0 评论 -
基于Python的数据结构(二)-- 搜索算法
搜索算法什么是搜索顺序查找二分查找Hash查找什么是搜索搜索是在项集合中查找特定项的算法过程。搜索通常对于项是否存在返回 True 或 False。有时它可能返回项被找到的地方。在python中使用in即可完成对元素的查找,但是顺序查找算法原理: 在项集合中按照顺序对元素进行比较,即顺序查找,其时间为O(n)优缺点: 如果查询的元素位置在中间,则时间只有n/2,但如果没有相应匹配的时候,...原创 2019-04-08 16:23:08 · 545 阅读 · 0 评论 -
使用Python实现二叉树及其三种遍历
代码如下:class Node: def __init__(self,value=None,left=None,right=None): self.value=value self.left=left self.right=rightdef preTraverse(root):# 前序遍历:根->左->右 ...原创 2019-04-08 16:27:21 · 601 阅读 · 0 评论 -
CNN中的卷积和池化个人理解
针对于图像识别中常用的CNN,其原理中的卷积层和池化层是最让人不好理解的。在看完各位大佬的解释后,小弟趁热打铁把目前的理解做个简单的总结。以下纯属个人理解,如有错误,请指正。卷积:通过探头(filter)在输入矩阵中按照一定步长(stride)去无间隙的扫描。拿图像处理为例,出去常见的二维平面,增加了一个深度(depth)的维度,其中深度可以理解为三维平面。filter的深度必须与输入样本...原创 2019-07-31 10:37:30 · 3924 阅读 · 1 评论 -
神经网络解读
Neural(牛肉) networks是模拟人体神经元的模型,其输入输出类似神经元:每个树突都类似输入值的一个特征,细胞核类似隐藏层中的激活函数,轴突就是输出值,其中也包含一个激活函数,最后末梢就是最后分类的结果。M-P神经元:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的链接(connection)进行传递,神经元接受到的总输入值讲与神经元的阈值进行比较,然后...原创 2019-08-01 16:56:48 · 763 阅读 · 0 评论