bemyself24_1-优快云博客

原创 git使用技巧及常见问题汇总（身为码农的你不可缺少的技能）

在gitlab上新建一个project后，有如下教程提示：1、Git global setup （初始设置，设置登录名和密码）git config --global user.name "***"git config --global user.email "***@stu.ouc.edu.cn"2、Create a new repository（打开本地终端，下载并建立git链接）git clone https://gitlab.com/DJofOUC/temp.gitcd te

2020-11-27 00:27:21 626

原创 mac修改pip镜像源

cd ~/ //进入根目录：cd .pip //进入.pip目录mkdir .pip //如果不存在文件夹就新建cd .pip //再次进入.pip目录touch pip.conf //创建pip.conf文件vim pip.conf //修改pip.conf文件修改配置文件：[global]index-url=http://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun..

2020-09-09 18:46:15 1392

原创 windows下matplotlib报错：from . import ft2font ImportError: DLL load failed: 找不到指定的模块

最新版本是matplotlib==3.3.1,修复方式：pip uninstall matplotlibpip install matplotlib==3.0.3

2020-08-21 10:59:23 7398 6

原创 kaggle上的一些小技巧（下载文件）

如何从kernel上下载代码保存的文件，因为有时候点击下载按钮不好使import osos.chdir('/kaggle/working')print(os.getcwd())print(os.listdir("/kaggle/working"))from IPython.display import FileLinkFileLink('ad_id.w2v.wv.vectors.npy')在下面就会有文件的下载链接，直接点击下载即可...

2020-05-16 14:11:55 7622 17

原创 virtualenv常用命令

一、安装sudo apt-get install python-virtualenv创建虚拟环境virtualenv ENV默认情况下，虚拟环境会依赖系统环境中的site packages，就是说系统中已经安装好的第三方package也会安装在虚拟环境中，如果不想依赖这些package，那么可以加上参数 --no-site-packages建立虚拟环境virtualenv --no-site-packages [虚拟环境名称]二、Virtaulenvwrapper是virtualen

2020-05-08 23:52:37 1138

原创 google colab如何修改tensorflow2到tensorflow1.X

Google colab默认导入的tensorflow版本是2.0想，想更改tensorflow版本为1.x则需要加入%tensorflow_version 1.ximport tensorflow as tftf.__version__之后要进行colab的重启（重启重启重启生效），即可完成版本改装。...

2020-05-08 09:41:51 1595

原创车险相关的知识

一、车牌颜色1、蓝色：一种最常见的车牌颜色，只要你持有C1的驾照都能开，大多数小型汽车挂的也是蓝色的车牌，不管是企业还是个体都可以开2、绿色：这种车牌颜色也是最近几年才新流行的，主要是新能源汽车，由于政策的原因，这样的车牌大城市才有的，不过由于新能源发展趋势快，越来越多人也挂上了这种车牌。3、白色：指的是白底黑字，这类车牌都挂在官方车上，比如解放军，武警，公检法，国安，如若...

2020-04-16 11:24:06 1363

原创 mac中使用matplotlib、seaborn画图，中文显示成方块如何解决

import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['Arial Unicode MS'] 直接在代码前面加上这句即可

2020-04-16 10:49:05 1554 3

原创几个重要的lightgbm自定义损失函数和评测函数（包括F1 score等）

f1_score自定义损失函数及评测函数def custom_f1_eval(y_true, y_pred): test_sub = TEST_SUB.copy() y_ranked = rank_result(y_pred, test_sub) f1 = evaluate_classification_new(y_ranked) F1.append(f1)...

2020-04-03 09:27:02 12887 7

原创 ubuntu18.04安装docker、docker-compose

1.卸载sudo apt-get remove docker docker-engine docker.io containerd runc2.安装Dockersudo apt-get update# 安装依赖包sudo apt-get install apt-transport-https ca-certificates curl gnupg-agent software...

2020-03-27 14:27:27 356

原创 mac修改国内镜像源

在终端进入目录： cd ~/.pip/如果没有 .pip 文件夹，新建文件夹: mkdir .pipcd .pipnanopip.conf粘贴如下内容[global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun.com或者清华镜像源[...

2020-03-24 08:54:12 3398

原创 PyCharm彻底卸载（有时候破解的时候可能需要重新安装）

删除应用打开访达，找到PyCharm应用，移到废纸篓；清除残留数据清理缓存，参数，日志相关配置文件，示例文件名：PyCharm2019.2打开终端依次执行下列命令cd ~/Library/Preferences/ rm -rf PyCharm2019.2/ cd ~/Library/Logsrm -rf PyCharm2019.2/cd ~/...

2020-03-13 13:33:05 15269 1

原创微众银行联邦学习SecureBoost论文学习笔记

一、联邦学习的背景数据孤岛：如上图，企业A有数据X1（特征），企业B有数据X2和标签，对于A，没有标签难以建模，对于B，特征X2较少，虽有标签，但模型精度达不到要求。将所有的数据放在一起，联合建模的话，由于数据隐私问题，A、B都难以接受。这时候联邦学习的作用就发挥出来了，联邦学习可以在不暴露双方的数据特征的情况下，联合训练模型，得到的模型可以达到或接近的联合建模的精度。这就是联邦学习的...

2020-03-12 23:44:52 9269 5

转载 SMART硬盘检测参数详解

硬盘SMART检测参数详解一、SMART概述要说Linux用户最不愿意看到的事情，莫过于在毫无警告的情况下发现硬盘崩溃了。诸如RAID的备份和存储技术可以在任何时候帮用户恢复数据，但为预防硬件崩溃造成数据丢失所花费的代价却是相当可观的，特别是在用户从来没有提前考虑过在这些情况下的应对措施时。硬盘的故障一般分为两种：可预测的（predictable）和不可预测的（unpre...

2020-03-02 17:18:40 13653

原创 youtube DNN视频topN推荐算法原理及代码

一、前言最近由于需要做一个topK推荐的项目，所以调研了一下，发现youtubeNet好像大家的评价不错，想实现一下，以此博客记录一下二、YoutubeNet基本框架Youtube是国外的大型视频网站，用户多达几亿，每秒上传的视频长度多达几个小时。对于这样一个大型视频网站，它的推荐系统面临以下几个问题：1、体量大：包括用户和视频集都十分巨大，如何从上百亿的视频中为上亿用户推荐他们所...

2019-07-31 15:37:30 18692 9

原创 centos7下python2.7升级到python3.6.1（包含很多种出现的错误，如pip中的openssl出错，zlib包出错，yum出错等）

centos7 升级python2.7 到python3.6.1https://blog.youkuaiyun.com/blueheart20/article/details/70062671https://xu3352.github.io/python/2018/05/15/python-3-install升级前，要安装和更新相应的包，如果有时候sudo的权限不够，可能需要在切换到root账户下进行...

2019-03-05 09:46:49 465

原创 tensorflow+tensorflow-serving+docker+grpc模型上线部署（不需bazel编译，有代码）

系统环境ubuntu14.04（mac上装的parallels虚拟机）Python36Tensroflow 1.8.0Tensorflow-serving 1.9.0（1.8官方不支持python3）Docker 18.03.1-cegrpcTensorflow-model-server 1.安装TensorflowPip3 install tensorflow...

2018-08-06 11:45:07 12771 40

原创模型组合方法-boosting算法详解（机器学习面试必备）

常见的模型组合方法有：简单平均（Averaging），投票（voting），Bagging（randomforest），boosting（GBDT），stacking，blending等，在实际业务中，单一模型很难满足需求，组合模型才能达到业务的精度要求。本文主要详细讲述三种具有代表性的boosting算法：Adaboost，GBDT，XGBoost. 1.Adaboost原理：利用前一轮迭代弱...

2018-04-16 16:34:30 9426

原创 SVM原理详解

写在前面：SVM是机器学习中占有一定分量的经典算法，也是找工作时，如机器学习工程师等岗位面试的时候，面试官肯定会提及的算法题，如果能够对其原理和推导过程有一定深度的认识，将是非常加分的。一、大致解释SVM（支持向量机Support Vector Machine）是一种二分类模型，它的原理是在特征空间中找到一个最大的超平面，使得所有样本到该平面的距离最大（求样本集合到平面的距离，也就是求最近

2018-01-29 11:51:23 1914

原创 Python3.x和Python2.x的区别

1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间，在字符串和整形操作上可以取得很好的优化结果。 Py3.1性能比Py2.5慢15%，还有很大的提升空间。 2.编码 Py3.X源码文件默认使用utf-8编码，这就使得以下代码是合法的：中国 = ‘china’

2017-11-22 10:27:33 323

原创 RNN和LSTM原理推导

一、RNN原理 RNN实际上也就是神经网络，它的基本组件（姑且这么称它吧）实际上也就是一个最简单的神经网络（一个input，一个hidden，一个output）如图所示最大的区别就是，对于hiddenLayer来说，它的输入不再单一的来自inputLayer，还来自于上一个时刻的hiddenLayer，也就是说，不同时刻的hiddenLayer之间也有权值连接。RNN基本结构如下图所示

2017-11-18 20:06:05 2812

原创 GBDT原理理解

理解GBDT原理主要在于三个关键点：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage（缩减） 1.DT（回归树）工作流程分类树：我们知道C4.5分类树在每次分枝时，是穷举每一个feature的每一个阈值，找到使得按照feature<=阈值，和feature>阈值分成的两个分枝的熵最大的feature和阈值（熵最大

2017-09-04 15:49:44 410

原创深度学习避免过拟合的方法---Data Augmentation

深度学习中的Data Augmentation方法在深度学习中，为了避免出现过拟合（Overfitting），通常我们需要输入充足的数据量。当数据量不够大时候，常常采用以下几种方法：Data Augmentation：通过平移、翻转、加噪声等方法从已有数据中创造出一批“新”的数据，人工增加训练集的大小。Regularization：数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大.

2017-08-28 08:10:48 1985

原创动态规划

一、基本概念动态规划是运筹学的一个分支，是求解决策过程最优化的数学方法（Dynamic Programming）动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，称之为动态规划（多阶段最优化决策问题）二、基本思想与策略与分治法类似，将问题分解成若干子问题，按顺序求解子问题，前一子问题的解为后一子问题提供了有用的信息。在求解任一子

2017-08-18 16:12:08 444

转载 xgboost参数详解

XGBoost参数包括：general parameters，booster参数booster parameters和目标参数task parameters：General parameters：参数控制在提升（boosting）过程中使用哪种booster，常用的booster有树模型（tree）和线性模型（linear model）。 Booster parameters：这取决于使用哪种bo

2017-08-14 15:11:34 974

原创 centos7下升级cmake，很简单

1.下载cmake（看看自己版本对不对）wget https://cmake.org/files/v3.6/cmake-3.6.2.tar.gz tar xvf cmake-3.6.2.tar.gz && cd cmake-3.6.2/./bootstrap2.解压，编译安装gmakegmake install（需要在su命令下执行，或者直接使用root账户安装）查看新版本/usr/l

2017-08-09 16:54:12 37986 6

原创 centos7下xgboost，python安装

git clone --recursive https://github.com/dmlc/xgboostcd xgboostmake -j4cd python-package; sudo python setup.py installsudo apt-get install python-setuptoolsexport PYTHONPATH=~/xgboost/python-packa

2017-08-08 14:57:43 2944

原创 root密码忘了怎么办？centos7下重置root密码

1、开机启动，出现以下界面时，按”e”键： 2、在文件的底部，“utf-8”后面加“init=/bin/sh”，注意，不要另起一行，直接空格，然后在后面加就行 3、ctrl+x重启，出现如下界面注：有些电脑可能不一样，可能只有sh-4.2#，没有那么多[ok]，直接在sh-4.2#后面输入命令 4、mount -o remount,rw / 文件挂载，获取读写权限，有些教

2017-08-08 11:40:25 542

原创机器学习：逻辑回归原理及实现代码

逻辑回归（LR）实际上就是输入一系列特征，输出判别结果，是常用的机器学习分类器。LR普及的原因有三个：（1）原理十分简单，容易实现（2）LR是互联网中比较有影响力的算法，是广告点击率（CTR）预测的基础算法（要知道，广告可是互联网公司的盈利来源）（3）LR是深度学习的基本组成单元（激活函数） 1、逻辑回归初识：给定N个样本，（x，y），x表示特征向量，y为标签（-1,1）。

2017-08-07 19:33:22 621

原创深度学习，机器学习面试问题

1.为什么使用Relu激活函数，作用是什么？如不特别说明，激活函数一般是指非线性激活函数，使用激活函数的目的是为了提高网络的非线性建模能力，如果只是卷积和全连接操作，那么网络模型还只是在线性空间上的表达 1）sigmoid激活函数：处处可导，两侧接近于0.sigmoid函数的软饱和性限制了神经网络的发展，网络传导的时候，若节点调入饱和区，（sigmoid关于输入的导数）改点导数为0，也就表示为

2017-07-24 16:31:29 635

原创 python:面向过程和面向对象编程思想

一、区别面向过程：在实现的时候，每个过程都需要一个函数面向对象：二、面向对象和类类的组成：以狗为例（1）类名：（狗）（2）类的属性：一组数据（狗的毛色，重量等）（3）类的方法：(狗的功能) 三、全局变量实际上就是使用self初始化，然后就可以在类的方法里面直接调用该变量class Cat: def __init__(self,new_name,new_age

2017-07-24 12:35:52 3036

原创机器学习面试题

1.svm算法的原理、如何组织训练数据、如何调节惩罚因子、如何防止过拟合、svm的泛化能力、增量学习 SVM算法原理：通过学习一个超平面来进行二分类，这个超平面可以用函数f(x)=W*X+b，当f(x)等于0时，X便是位于超平面上的点，大于0小于0分别对应着1类和-1类（标签可变），超平面的确定标准就是这个超平面到数据点之间有着最大间隔（函数间隔，几何间隔），一般都使用几何间隔，几何间隔就是点到超

2017-07-15 20:18:07 1182

原创 ROC曲线原理及其matlab实现源码

ROC曲线和AUC经常用来评价二分类器的好坏，ROC简单的说就是在不断地调整阀值（正例置信度）的条件下，求TPR（True Positive Rate）和FPR（False Positive Rate）的值，具体的定义如下图：由于我们实验室做的是气象方面，所以使用的是POD，FAR和CSI 四个特殊点和一条直线：（1）（0，0）全部预测为负类，TPR=FPR=0，即TP=FP=0

2017-07-11 13:44:36 5808 2

原创机器学习：深度信念网络（DBN）原理和实现

深度信念网络结构，经典结构，直接上图： DBN由多个RBM堆叠而成，训练过程由预训练和微调构成深度信念网络训练步骤：（1）预训练：分别单独无监督的训练每一层RBM网络，确保特征向量映射到不同特征空间是，都尽可能的保留特征信息；具体怎么训练呢，往下看通过一个非监督贪婪逐层方法预训练获得权重（即不要类标，不断拟合输入，一次逐层），又叫对比分歧。好像还不是很具体，再看在这个过程中，可

2017-07-09 16:41:04 31588 5

原创 caffe常用层Convolution，SoftmaxLayer和SoftmaxLossLayer原理解析

写在前面：昨天面试，面试官问各种关于caffe的问题，之前以为自己对caffe很熟，但是竟然一问三不知，深受打击。主要这段时间一直在看C++基础算法部分，都没怎么复习caffe，看来是人老了，脑子跟不上了，趁着双休，好好把caffe过一遍。主要是对常用层原理的一些说明参考caffe的api document：http://caffe.berkeleyvision.org/doxygen/anno

2017-07-08 12:42:23 3070

原创链表的初始化，增删改查等

这几天一直在看链表，刚开始有点迷糊，看了两天，后来发现链表实际上挺简单的，主要掌握住，怎么判断链表为空，链表怎么表示，增删改查操作时，应该怎么操作当前结点，注意内存泄漏，掌握住了以上几点，链表应该就差不多了，废话不多说，直接撸代码。#include<iostream>using namespace std;class Node{public: int data; Node *n

2017-07-05 17:31:12 1317

原创 python：raw_input和input区别

raw_input() 与 input()都是python的内建函数，实现控制台交互式输入，但二者有区别>>> raw_input_A = raw_input("raw_input: ")raw_input: abc >>> input_A = input("Input: ")Input: abcTraceback (most recent call last): File "<pyshe

2017-07-03 15:18:08 284

原创机器学习：GBDT和XGBoost的区别

一、GBDT原理 1、简介 GBDT是一个基于迭代累加的决策树算法，它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。他的核心就是累加所有树的结果最为最终结果（但实际上并不是简单的叠加），GBDT中的树都是回归树，构建每棵树的时候，我们会对特征和样本同时采样（引用RF思想） 2、公式推导 3、优缺点优点：非线性变换多，表达能力强，而且不需要做复杂的特征工

2017-06-26 19:40:25 810

原创机器学习：决策树算法

1.算法引入先举一个简单的例子来介绍一下决策树到底是个什么东西。（参考：）一个母亲要给女儿介绍对象，所以有了如下的对话：女儿：多大年纪了？女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。这个女孩的判断过程就是一个决策树，她根据

2017-06-24 18:34:44 574

原创 XGBoost算法原理及代码（代码持续更新。。。）

前言：有监督算法的组成：模型，参数和目标函数（1）模型：给入指定的Xi如何去预测Yi，姑且认为是一个Y关于X的函数吧,如线性回归Y=∑Wi*Xi （2）参数：就是指系数W （3）目标函数（损失+正则）：目标函数的作用是找到比较好的参数W，来更好地预测，基本形式如下：常见的误差函数有：（1）平方误差：（2）logistic误差函数：正则化有L2和L1正则化（其区别可以看

2017-06-22 17:57:58 5862

MFC绘制直线

链表的初始化，增删改查

空空如也