
机器学习实战
基于sklearn和tensorflow的教程
看不见我呀
坚持就是胜利
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习项目清单
来源:https://zhuanlan.zhihu.com/p/34667595 目录 1 规范化问题:Frame the Problem and Look at the Big Picture 2 获取数据:Get the Data 3 探索数据:Explore the Data 4 数据预处理:Prepare the Data 5 列出可能的模型:Short-List Promis...转载 2019-07-02 23:10:13 · 215 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例(二)
目录 1.加载数据 1.2分离测试集 1.2数据清洗 1.3处理文本和分类属性 1.4自定义转换器 1.5特征缩放 1.6转换流水线 2.选择和训练模型 2.1训练和评估训练集 2.2使用交叉验证集来更好的进行评估 2.3微调模型 2.3.1网格搜索 2.3.2随机搜索 2.3.3集成方法 2.3.4分析最佳模型及其错误 2.4通过测试集评估系统 3.启动、监控和...原创 2019-07-02 22:55:24 · 363 阅读 · 0 评论 -
插播一:数据对范数的影响
机器学习指标:是要选RMSE,还是选择MAE呢。 RMSE为2范数,MAE为1范数。 范数越高,则越关注越大的价值,忽视小的价值。 因此RMSE比MAE,对异常值更加敏感。 但是,当异常值较少时,RMSE的表现会好一些。 以下为我自己的测试范数。 以下为只有20个数据中只有一个异常值: 以下为20个数据中有10个异常值: 限制到【0,400】便于观察: ...原创 2019-06-28 23:38:12 · 295 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例
学会了使用自动目录,这个可以美美的了。 目录 1.前置知识 1.1使用真实数据 1.2观察大局 1.3框架问题 1.4 选择性能指标 1.5检查假设 2.获取数据 2.1创建工作区 2.2下载数据 2.3分析数据 2.3.1统计学的角度分析——head/info/value_counts/describe 2.3.2图形的角度分析——直方图对 2.4创建测试集——引入分...原创 2019-06-28 23:09:04 · 1039 阅读 · 0 评论 -
第1章 机器学习概览
第一个机器学习实例:垃圾邮件分类器。 什么是机器学习:有任务,为了完成任务需要有经验和指标。经验从训练数据中获取。指标用于衡量任务完成的怎么样。 为什么要使用ML:传统的算法其实是规则,很难维护。 但是机器学习,可能会揭示出人类未曾意识到的关联型,帮助我们理解问题。 引出:数据挖掘:应用机器学习技术挖掘海量数据,发现并非立见...原创 2019-06-28 01:46:21 · 233 阅读 · 0 评论 -
np.random、bgr、rgb、plt.subplot
1.np.random.choice() np.random.randn np.random.shuffle plt.imshow 图像模式的区别:plt.image.imread为RGB模式,cv为BGR模式。 多列图像原创 2019-09-16 14:21:57 · 253 阅读 · 0 评论 -
项目二:人脸关键点检测
本文预测68个关键点 1.观察图像 2.预处理 2.1构造输入数据 torch.utils.data.Dataset是一个表示数据集的抽象类。这个类可以让我们加载批量的图像/关键点数据,并统一地将转换应用于我们的数据,例如,为了训练神经网络,重新缩放和归一化化图像。 你的自定义数据集应继承Dataset并覆盖以下方法: __len__,从而使len(dataset)返回数据集的大...原创 2019-09-16 14:53:31 · 965 阅读 · 0 评论 -
项目五:狗品种识别
1.加载数据集,并且熟悉数据 2.构造检测器 2.1构造人脸检测器 2.2构造狗狗检测器-resnet直接检测 3.构建狗品种检测器 3.1自己构建 3.2使用迁移学习vgg学习 3.3使用xception进行迁移学习 4.测试算法 ...原创 2019-09-16 15:09:00 · 1352 阅读 · 0 评论 -
深度有趣(1)-风格迁移
这几天看完了张宏伦的《深度有趣》,确实很有趣。 不过近期鉴于需要,仅做关于视觉的总结。 1.图像风格迁移 本质:以前是根据输入和损失函数,来确定权重。不过这个思路有点不一样,根据权重和损失,来确定输入。 这个原理多想一下就可以理解的。(关于输入和自变量的置换。本来就是人为认定的。) 连接:https://zhuanlan.zhihu.com/p/44165451 模型:vgg19在im...原创 2019-09-24 22:13:50 · 300 阅读 · 0 评论 -
深度有趣(2)-自编码
自编码器: https://zhuanlan.zhihu.com/p/44165994 这个应用其实很学术化,为了去燥而去燥。 因为训练样本是有噪声的图像。目标样本是没有噪声的图像。试想一下,怎么去找这个图像呀??? 模型:编码器 + 解码器 编码器:输入有噪声的图像,最后编码为多个特征图(7*7*32); 解码器:输入为编码器的输出(7*7*32),输出为原图大小(28 * ...原创 2019-09-24 22:38:57 · 115 阅读 · 0 评论 -
深度学习(3)-变分自编码器
搞个目录 目录 1.原理:根据多个样本,学会生成新的样本。 2.本文的案例: 实现细节:encoder + decoder 【学习x服从的高斯分布的均值和方差,然后在此高斯分布中随机选取一个值。】 损失函数: 训练: 推理: 额外的看看,隐变量服从高斯分布的参数的范围: 思考: 1.这个项目判定样本是否好区分,也就是区分任务的难易程度。 2.关于loss的考虑: 3.有...原创 2019-09-24 23:05:07 · 740 阅读 · 0 评论 -
深度学习(4)-生成式对抗网络
目录 1.GAN和变分自编码器有共同的目的,就是根据噪声估计出样本。即生成样本。但是具体实施的思路不一致。 2.GAN中主要包括两个核心网络:G + D 代码细节: 判别器: 生成器: 损失函数: 优化器: 训练:训练之前先计算下损失。 推理一: 推理二: 3.延伸 4.思考 生成式对抗网络(GAN) https://zhuanlan.zhihu.com...原创 2019-09-24 23:35:41 · 677 阅读 · 0 评论 -
目标检测常见的框架
1.分类 vgg-resnet-inception-xception-senet 2.检测 r-cnn系列 yolo-ssd 3.多尺度 3.1FPN:采用resnet的策略,进行加法运算。——多尺度的做法。 自底向上其实就是网络的前向过程。在前向过程中,feature map的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,作者将不改变feature map大小...原创 2019-09-25 00:11:56 · 3997 阅读 · 0 评论 -
MTCNN代码解读
原文: https://github.com/LeslieZhoa/tensorflow-MTCNN 1.三个模型要按顺序训练,PNet-RNet-ONet 2.训练集 负样本:IOU < 0.3 正样本:IOU > 0.65 part 样本:0.4 < IOU < 0.65 关键点位置:5个关键点位置。 人脸分类:正样本 + 负样本 人脸检测:正样...原创 2019-09-25 23:34:26 · 878 阅读 · 0 评论 -
随便学习python常见的两个库吧
目录 1.sklearn的datasets.load_files() 2.keras的to_categorical 3.glob 4.进度条 1.sklearn的datasets.load_files() 2.keras的to_categorical 3.glob 4.进度条原创 2019-09-15 01:54:55 · 407 阅读 · 0 评论 -
pca
以下为pca的应用 聚类效果: 每一个旧特征在新特征的投影: 每一个旧特征在新特征的直观表示: 如果采用lda方法进行分类: 效果如下: <其实对于iris来说,lda更好一些。> 【既然已经分开了,然后配合kmeans就可以进行分类了】 还有一个案例,做lfw的人脸识别。以后再补充。 ...原创 2019-09-15 01:09:37 · 143 阅读 · 0 评论 -
项目一——泰坦尼克预测存活人数
这个项目的目的:预测生还的人数。 最大的感悟:挖掘特征的方式。或者可以理解为:分析数据的方式。 文章的具体思路: 1.不考虑任何特征,直接预测全部生还时,模型的准确率为:60% 2.不考虑任何特征,直接预测全部死亡时,模型的准确率为:61.62% 3.考虑单一特征: 通过分析数据,可以发现,生还的人数中,女性的比例比较大, 因此,直接构建模型:女性全部生还,此时的准确率为:78.68...原创 2019-09-12 23:40:01 · 226 阅读 · 0 评论 -
plt.bar
网址:https://blog.youkuaiyun.com/qq_29721419/article/details/71638912 以下分别为: 1.修改颜色 2.堆叠绘制 3.并列绘制 4.横状绘制 ...转载 2019-09-13 00:06:17 · 6568 阅读 · 0 评论 -
sklearn.model_selection
目录 一、进行归一化 二、交叉验证 实例一:花花类别判别 实例二:糖尿病的指数回归 三、机器学习中的各种得分指标 1.accuracy 2.confusion_matrix 3.classification_report 4.hamming_loss 5.jaccard_similarity 四、分离样本集 1.train_test_split 2.shufflespli...原创 2019-09-13 18:01:01 · 629 阅读 · 0 评论 -
项目二:房价预测
目标:根据一些属性,预测波士顿的房价 关键步骤: 1.分析数据 1.1观察数据的类型, 是否有字符串型数据、是否有缺失值、数据范围是否合理。 2.数据预处理(清洗数据) 2.1正确性:有没有异常值 2.2完整性:是否有缺失值 在本例中,我们使用以下两种方法, 一是丢弃数据,即选择丢弃过多空数据的特征(或者直接丢弃数据行,前提是NA数据占比不多), 二是填补数据,填补的方法也很多...原创 2019-09-13 18:31:24 · 362 阅读 · 0 评论 -
特征编码dummy
目录 1.字符编码 二、伯努利编码-01二值化 三、类别编码 四、构造特征值-多项式方法 五、定制转换器 有好几种特征编码的方式: 1.字符编码 二、伯努利编码-01二值化 三、类别编码 四、构造特征值-多项式方法 五、定制转换器 ...原创 2019-09-14 01:08:58 · 771 阅读 · 0 评论 -
plt.hist-双重直方图
hist绘制的是频次原创 2019-09-14 01:11:44 · 2788 阅读 · 1 评论 -
项目三-寻找年收入大于50w的富豪(完整)
目录 1.探索数据 1.1了解数据(各个特征的含义) 2.清洗数据-准确、完整 2.1特征转换——转换倾斜的连续特征 2.2特征归一化 2.3独热编码——字符特征和离散数字特征 2.4切分数据 3.模型的评价指标 4.建模 4.1基准模型 4.2模型的选择-依据:应用场景、模型的优劣势、是否适合本文的问题 模型1 模型2 模型3 4.3创建一个训练和预测的流水线;——...原创 2019-09-14 01:40:30 · 421 阅读 · 0 评论 -
sns.relplot
介绍采用sns的强大的绘图。可以绘制不止二维的信息。 【优美的排版】 用散点图关联变量 用线强调连续性 聚合和表示不确定性 用语义映射绘制数据子集 显示与facet的多个关系 ...原创 2019-09-14 23:15:09 · 2903 阅读 · 0 评论 -
项目四:创建用户分类-无监督学习
目录 1.分析数据——理解:每一个特征和其他特征之间的联系。 1.1特征相关性 1.2可视化特征分布 2.数据预处理 2.1特征变换 2.2异常值检测 3.降为特征 4.聚类 5.数据恢复 6.引申——构建新特征 7.讨论: 本文介绍一个无监督学习的历程。 项目背景:你将分析一个数据集的内在结构,这个数据集包含很多客户真对不同类型产品的年度采购额(用金额表示) 项目任务...原创 2019-09-15 01:03:37 · 609 阅读 · 0 评论 -
MTCNN 代码解读 (2)Pnet
Pnet主要的难点是:如何根据heatmap来提取候选框? 详见下文:https://zhuanlan.zhihu.com/p/31913064 Pnet为全卷积网络。 训练的时候,使用的是二分类网络。 但是由于是全卷机网络,在推理时不一样: 输入为12*12*3的图像,输出为heatmap。 然后根据heatamp提取候选框,然后采NMS来选取可能性最大的目标框。 1.【原始...原创 2019-09-27 00:45:09 · 500 阅读 · 0 评论