机器学习_滚滚的纸盒子的博客-优快云博客

机器学习

关注

文章平均质量分 54

关注数：文章数：11 文章阅读量：9767 文章收藏量：16

作者: 滚滚的纸盒子

不论失败了，挫折了，还是不自信了，该坚强的要坚强，咬咬牙，往前走，也许结局未可知呢，得有个念想，想想曾经那份天纵英才的傲娇，应该拿回来；想想你犯的错，你也应该弥补被你错误影响的人。生命是美好的，也许现在感受的许多艰辛与无奈，就算明天依旧惨淡，但是得有期望，后天也许就灿烂如初了呢。愿你走出半生，归来仍是少年。

展开

专栏收录文章

关于“调包”，职业调包侠在此【update ++】！

1.“铲子”的经验、学习记录，不定期update【接上】7）自编码器结论：用来压缩特征自编码器模型主要由编码器（Encoder）和解码器（Decoder）组成，其主要目的是将输入xxx转换成中间变量yyy，然后再将yyy转换成 x~\tilde{x}x~，然后对比输入xxx和输出x~\tilde{x}x~使得他们两个无限接近。比如建立一个MSE的loss，然后优化这个loss。其实就是无监督的一个embedding另外，和PCA这种思想也是，有损压缩，尽量信息损失少8）无监督文本embeddi

原创 2021-06-24 18:17:58 · 500 阅读 · 1 评论
关于“调包”，职业调包侠在此！

0.个人思考做算法策略的同学，大致可以看做两类:一类是“卖铲子”的，也就是“造轮子”的，比如Xgboost、tf、keras、pytorch等各种包；一类是“用铲子的”，也就是“调包侠”，比如用各种轮子做“搜广推”的；并不是说谁比谁高贵，分工尔。有一些“用铲子”的，被人说“调包侠”，不开心了，也开始把精力分散去“抄轮子”，做一些重复性的工作，就好像明明有“sort”函数可以直接用了，得自己手写个“快排”表明自己的尊贵…心态还是不好。既然社会分工是提高生产效率的，那么“调包侠”就应该好好理解手头

原创 2021-06-18 15:38:19 · 3210 阅读 · 2 评论
gbdt的一个笔记【“梯度提升”是一个通用的框架，GBDT是其中一员】

看了这一篇，更清晰了，下面截图做点笔记。http://aandds.com/blog/ensemble-gbdt.html方框1，本质就是每一轮弱学习器，去拟合损失函数关于预测值的负梯度，迭代下去，损失越来越小，这里也就是核心所在了----“梯度下降”方框2，这里最速下降，有一个步长的最优搜索。这个地方其实在之前博客中，写gbdt、xgboost树生成流程的时候算过，并没有先算梯度、再寻优步长，而是作为一个整体算这一轮弱分类器的预测值。...

原创 2021-05-18 14:33:16 · 291 阅读 · 0 评论
最近一段时间做图像挖掘的3个经验mark一下【人脸、全图、形体】

1.判断一个人颜值好看不好看，截取“人脸部分”去训练模型，比整图要好。（这里贴下seetaface取人脸特征的脚本，部分函数是小伙伴写的）关键词：颜值，人脸部分import osos.environ["CUDA_VISIBLE_DEVICES"]="-1" #不使用gpuimport tensorflow as tf#配置seetafacesys.path.append('./seetaface')from seetaface.api import *init_mask = FACE_DE

原创 2021-04-15 18:49:59 · 326 阅读 · 0 评论
很久以前写的Xgboost有一些没写好，现在填坑_part1【xgboost是gbdt升级版】

无论是gbdt还是xgboost，以前我纠结拟合的是啥，后来才明白，优化才是核心。优化是核心1.先看GBDT功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入优化是核心GBDT也好，XGBOOST也好，目标就是寻找多棵树的预测结果

原创 2020-11-23 14:53:41 · 461 阅读 · 1 评论
我的轮子学习-part（2020-11）【人脸识别、物体检测】

我的机器学习（这次是搬轮子）-part（2020-3）文章目录前言一、1号轮子-人脸识别相关1.基于特征脸的传统方法2.基于深度学习的炼丹二、2号轮子-物体检测object dection1.思路1-RCNN系列2.思路2-YOLO系列三、轮子2人体 segmention+皮肤检测四、轮子2 操作web看开发机上面的图片开发五、Human activity recognition总结前言0. 以下两点内容与技术无关，关于自我认知而已1. 越来越清晰的自我定位：桥梁工作那些造优秀轮子的是大佬，比如

原创 2020-11-16 15:19:26 · 492 阅读 · 0 评论
我的机器学习-part（2020-2）【tf-server】

我的机器学习part（记录2020一次实践）0.引言1.环境配置：centos环境2.模型训练：resnet50、dt3.服务部署：docker、tf-server、tornado5.结语0.引言什么炫酷的模型都是手段而已，解决问题才是目的。国庆加班，做了个紧急项目，今天主要是记录机器学习在解决实际问题中的这一次经历。主要部分：（1）环境配置：这部分主要是同事来做，自己家里的Ubuntu是自己装的，公司的centos安装不一样，此处时间紧，分工配合，同事主配环境，我主作数据集、训练模型、搭建部分服

原创 2020-10-10 15:28:50 · 681 阅读 · 1 评论
我的机器学习-part（2020-1）【有监督/无监督、Spark+BigDL】

回望过去+看未来1.过去经历1.1 问题抽象1.2 特征工程2.强化学习1.过去经历个人理解，抛砖引玉，另外为了通俗，难免不严谨，会其意。大致分为有监督学习（如回归、分类）、无监督学习（如聚类、降维）、强化学习这3支，强化学习我暂时还没有亲身去玩，就不乱说，后续补上。首先，回归和分类其实一个问题，比如预测房价0~100000的某一个数值，你把房价切成几个区间，预测在哪个区间，就实现了回归和分类的转化。然后，实际中大部分问题是一个分类/回归问题，拿分类举例，你现在要对某产品的user进行使用目的分类

原创 2020-08-28 13:25:56 · 965 阅读 · 0 评论
几个例子，立点flag【python爬虫、多进程、spark-ml库等例子】

内心有点难受，还得想办法加油，人啊，就一辈子哟序言例子1 爬数据-python爬虫例子2.多进程multiprocessing例子3. spark里面ml库随便结尾序言1.首先还是那句话，如有雷同，当我抄你的。2.疫情影响，想出去玩也不行，有点抑郁。3.19年年底，换工作了，大的硬核技术上还没啥进阶的，还是工程落地解决实际问题为主了，多点经验罢了，这些事儿多少有丢丢boring。4.主要就是，利用机器学习思路来解决产品中实际的问题，比如预测流失、活跃、投诉等等，无非就是拆解问题、找特征、构建样本、

原创 2020-06-19 15:27:13 · 692 阅读 · 0 评论
发散阅读、拓宽思路【PageRank、Tf-Idf、协同过滤、分布式训练、StyleTransfer、Node2vec】

刚工作一年，做的内容算是比较单一，基本是NLP相关，当然主流的算法、模型还是基本都了解，偶尔发散的看一些东西，算是留个印象，日积月累，可能以后会用到或者有所启发。PageRank+Tf-Idf+协同过滤+分布式训练+StyleTransfer+Node2vec。

原创 2019-09-16 16:01:32 · 685 阅读 · 0 评论
通俗易懂系列机器学习之手撕bert【bert论文、源码、实践都被我撸了】

优质的fine-tune工具

原创 2019-08-24 09:29:37 · 1464 阅读 · 0 评论

机器学习

作者: 滚滚的纸盒子

关于“调包”，职业调包侠在此【update ++】！

关于“调包”，职业调包侠在此！

gbdt的一个笔记【“梯度提升”是一个通用的框架，GBDT是其中一员】

最近一段时间做图像挖掘的3个经验mark一下【人脸、全图、形体】

很久以前写的Xgboost有一些没写好，现在填坑_part1【xgboost是gbdt升级版】

我的轮子学习-part（2020-11）【人脸识别、物体检测】

我的机器学习-part（2020-2）【tf-server】

我的机器学习-part（2020-1）【有监督/无监督、Spark+BigDL】

几个例子，立点flag【python爬虫、多进程、spark-ml库等例子】

发散阅读、拓宽思路【PageRank、Tf-Idf、协同过滤、分布式训练、StyleTransfer、Node2vec】

通俗易懂系列机器学习之手撕bert【bert论文、源码、实践都被我撸了】