- 博客(41)
- 资源 (2)
- 收藏
- 关注
原创 git使用技巧及常见问题汇总(身为码农的你不可缺少的技能)
在gitlab上新建一个project后,有如下教程提示:1、Git global setup (初始设置,设置登录名和密码)git config --global user.name "***"git config --global user.email "***@stu.ouc.edu.cn"2、Create a new repository(打开本地终端,下载并建立git链接)git clone https://gitlab.com/DJofOUC/temp.gitcd te
2020-11-27 00:27:21
586
原创 mac修改pip镜像源
cd ~/ //进入根目录:cd .pip //进入.pip目录mkdir .pip //如果不存在文件夹就新建cd .pip //再次进入.pip目录touch pip.conf //创建pip.conf文件vim pip.conf //修改pip.conf文件修改配置文件:[global]index-url=http://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun..
2020-09-09 18:46:15
1317
原创 windows下matplotlib报错:from . import ft2font ImportError: DLL load failed: 找不到指定的模块
最新版本是matplotlib==3.3.1,修复方式:pip uninstall matplotlibpip install matplotlib==3.0.3
2020-08-21 10:59:23
7240
6
原创 kaggle上的一些小技巧(下载文件)
如何从kernel上下载代码保存的文件,因为有时候点击下载按钮不好使import osos.chdir('/kaggle/working')print(os.getcwd())print(os.listdir("/kaggle/working"))from IPython.display import FileLinkFileLink('ad_id.w2v.wv.vectors.npy')在下面就会有文件的下载链接,直接点击下载即可...
2020-05-16 14:11:55
7263
17
原创 virtualenv常用命令
一、安装sudo apt-get install python-virtualenv创建虚拟环境virtualenv ENV默认情况下,虚拟环境会依赖系统环境中的site packages,就是说系统中已经安装好的第三方package也会安装在虚拟环境中,如果不想依赖这些package,那么可以加上参数 --no-site-packages建立虚拟环境virtualenv --no-site-packages [虚拟环境名称]二、Virtaulenvwrapper是virtualen
2020-05-08 23:52:37
1078
原创 google colab如何修改tensorflow2到tensorflow1.X
Google colab默认导入的tensorflow版本是2.0想,想更改tensorflow版本为1.x则需要加入%tensorflow_version 1.ximport tensorflow as tftf.__version__之后要进行colab的重启(重启重启重启生效),即可完成版本改装。...
2020-05-08 09:41:51
1558
原创 车险相关的知识
一、车牌颜色1、蓝色:一种最常见的车牌颜色,只要你持有C1的驾照都能开,大多数小型汽车挂的也是蓝色的车牌,不管是企业还是个体都可以开2、绿色:这种车牌颜色也是最近几年才新流行的,主要是新能源汽车,由于政策的原因,这样的车牌大城市才有的,不过由于新能源发展趋势快,越来越多人也挂上了这种车牌。3、白色:指的是白底黑字,这类车牌都挂在官方车上,比如解放军,武警,公检法,国安,如若...
2020-04-16 11:24:06
798
原创 mac中使用matplotlib、seaborn画图,中文显示成方块如何解决
import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['Arial Unicode MS'] 直接在代码前面加上这句即可
2020-04-16 10:49:05
1427
3
原创 几个重要的lightgbm自定义损失函数和评测函数(包括F1 score等)
f1_score自定义损失函数及评测函数def custom_f1_eval(y_true, y_pred): test_sub = TEST_SUB.copy() y_ranked = rank_result(y_pred, test_sub) f1 = evaluate_classification_new(y_ranked) F1.append(f1)...
2020-04-03 09:27:02
12637
7
原创 ubuntu18.04安装docker、docker-compose
1.卸载sudo apt-get remove docker docker-engine docker.io containerd runc2.安装Dockersudo apt-get update# 安装依赖包sudo apt-get install apt-transport-https ca-certificates curl gnupg-agent software...
2020-03-27 14:27:27
303
原创 mac修改国内镜像源
在终端进入目录: cd ~/.pip/如果没有 .pip 文件夹,新建文件夹: mkdir .pipcd .pipnanopip.conf粘贴如下内容[global]index-url = http://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun.com或者清华镜像源[...
2020-03-24 08:54:12
3328
原创 PyCharm彻底卸载(有时候破解的时候可能需要重新安装)
删除应用打开访达,找到PyCharm应用,移到废纸篓;清除残留数据清理缓存,参数,日志相关配置文件,示例文件名:PyCharm2019.2打开终端依次执行下列命令cd ~/Library/Preferences/ rm -rf PyCharm2019.2/ cd ~/Library/Logsrm -rf PyCharm2019.2/cd ~/...
2020-03-13 13:33:05
14764
1
原创 微众银行联邦学习SecureBoost论文学习笔记
一、联邦学习的背景数据孤岛:如上图,企业A有数据X1(特征),企业B有数据X2和标签,对于A,没有标签难以建模,对于B,特征X2较少,虽有标签,但模型精度达不到要求。将所有的数据放在一起,联合建模的话,由于数据隐私问题,A、B都难以接受。这时候联邦学习的作用就发挥出来了,联邦学习可以在不暴露双方的数据特征的情况下,联合训练模型,得到的模型可以达到或接近的联合建模的精度。这就是联邦学习的...
2020-03-12 23:44:52
9017
5
转载 SMART硬盘检测参数详解
硬盘SMART检测参数详解一、SMART概述 要说Linux用户最不愿意看到的事情,莫过于在毫无警告的情况下发现硬盘崩溃了。诸如RAID的备份和存储技术可以在任何时候帮用户恢复数据,但为预防硬件崩溃造成数据丢失所花费的代价却是相当可观的,特别是在用户从来没有提前考虑过在这些情况下的应对措施时。硬盘的故障一般分为两种:可预测的(predictable)和不可预测的(unpre...
2020-03-02 17:18:40
12435
原创 youtube DNN视频topN推荐算法原理及代码
一、前言最近由于需要做一个topK推荐的项目,所以调研了一下,发现youtubeNet好像大家的评价不错,想实现一下,以此博客记录一下二、YoutubeNet基本框架Youtube是国外的大型视频网站,用户多达几亿,每秒上传的视频长度多达几个小时。对于这样一个大型视频网站,它的推荐系统面临以下几个问题:1、体量大:包括用户和视频集都十分巨大,如何从上百亿的视频中为上亿用户推荐他们所...
2019-07-31 15:37:30
18528
9
原创 centos7下python2.7升级到python3.6.1(包含很多种出现的错误,如pip中的openssl出错,zlib包出错,yum出错等)
centos7 升级python2.7 到python3.6.1https://blog.youkuaiyun.com/blueheart20/article/details/70062671https://xu3352.github.io/python/2018/05/15/python-3-install升级前,要安装和更新相应的包,如果有时候sudo的权限不够,可能需要在切换到root账户下进行...
2019-03-05 09:46:49
444
原创 tensorflow+tensorflow-serving+docker+grpc模型上线部署(不需bazel编译,有代码)
系统环境ubuntu14.04(mac上装的parallels虚拟机)Python36Tensroflow 1.8.0Tensorflow-serving 1.9.0(1.8官方不支持python3)Docker 18.03.1-cegrpcTensorflow-model-server 1.安装TensorflowPip3 install tensorflow...
2018-08-06 11:45:07
12739
40
原创 模型组合方法-boosting算法详解(机器学习面试必备)
常见的模型组合方法有:简单平均(Averaging),投票(voting),Bagging(randomforest),boosting(GBDT),stacking,blending等,在实际业务中,单一模型很难满足需求,组合模型才能达到业务的精度要求。本文主要详细讲述三种具有代表性的boosting算法:Adaboost,GBDT,XGBoost. 1.Adaboost原理:利用前一轮迭代弱...
2018-04-16 16:34:30
9282
原创 SVM原理详解
写在前面:SVM是机器学习中占有一定分量的经典算法,也是找工作时,如机器学习工程师等岗位面试的时候,面试官肯定会提及的算法题,如果能够对其原理和推导过程有一定深度的认识,将是非常加分的。一、大致解释SVM(支持向量机Support Vector Machine)是一种二分类模型,它的原理是在特征空间中找到一个最大的超平面,使得所有样本到该平面的距离最大(求样本集合到平面的距离,也就是求最近
2018-01-29 11:51:23
1827
原创 Python3.x和Python2.x的区别
1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可 以取得很好的优化结果。 Py3.1性能比Py2.5慢15%,还有很大的提升空间。 2.编码 Py3.X源码文件默认使用utf-8编码,这就使得以下代码是合法的: 中国 = ‘china’
2017-11-22 10:27:33
301
原创 RNN和LSTM原理推导
一、RNN原理 RNN实际上也就是神经网络,它的基本组件(姑且这么称它吧)实际上也就是一个最简单的神经网络(一个input,一个hidden,一个output) 如图所示 最大的区别就是,对于hiddenLayer来说,它的输入不再单一的来自inputLayer,还来自于上一个时刻的hiddenLayer,也就是说,不同时刻的hiddenLayer之间也有权值连接。RNN基本结构如下图所示
2017-11-18 20:06:05
2761
原创 GBDT原理理解
理解GBDT原理主要在于三个关键点:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shrinkage(缩减) 1.DT(回归树) 工作流程 分类树:我们知道C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的feature和阈值(熵最大
2017-09-04 15:49:44
371
原创 深度学习避免过拟合的方法---Data Augmentation
深度学习中的Data Augmentation方法在深度学习中,为了避免出现过拟合(Overfitting),通常我们需要输入充足的数据量。当数据量不够大时候,常常采用以下几种方法:Data Augmentation:通过平移、 翻转、加噪声等方法从已有数据中创造出一批“新”的数据,人工增加训练集的大小。Regularization:数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大.
2017-08-28 08:10:48
1920
原创 动态规划
一、基本概念 动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法(Dynamic Programming)动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,称之为动态规划(多阶段最优化决策问题) 二、基本思想与策略 与分治法类似,将问题分解成若干子问题,按顺序求解子问题,前一子问题的解为后一子问题提供了有用的信息。在求解任一子
2017-08-18 16:12:08
399
转载 xgboost参数详解
XGBoost参数包括:general parameters,booster参数booster parameters和目标参数task parameters:General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)。 Booster parameters:这取决于使用哪种bo
2017-08-14 15:11:34
865
原创 centos7下升级cmake,很简单
1.下载cmake(看看自己版本对不对)wget https://cmake.org/files/v3.6/cmake-3.6.2.tar.gz tar xvf cmake-3.6.2.tar.gz && cd cmake-3.6.2/./bootstrap2.解压,编译安装gmakegmake install(需要在su命令下执行,或者直接使用root账户安装) 查看新版本/usr/l
2017-08-09 16:54:12
37849
6
原创 centos7下xgboost,python安装
git clone --recursive https://github.com/dmlc/xgboostcd xgboostmake -j4cd python-package; sudo python setup.py installsudo apt-get install python-setuptoolsexport PYTHONPATH=~/xgboost/python-packa
2017-08-08 14:57:43
2885
原创 root密码忘了怎么办?centos7下重置root密码
1、开机启动,出现以下界面时,按”e”键: 2、在文件的底部,“utf-8”后面加“init=/bin/sh”,注意,不要另起一行,直接空格,然后在后面加就行 3、ctrl+x重启,出现如下界面 注:有些电脑可能不一样,可能只有sh-4.2#,没有那么多[ok],直接在sh-4.2#后面输入命令 4、mount -o remount,rw / 文件挂载,获取读写权限,有些教
2017-08-08 11:40:25
500
原创 机器学习:逻辑回归原理及实现代码
逻辑回归(LR)实际上就是输入一系列特征,输出判别结果,是常用的机器学习分类器。LR普及的原因有三个: (1)原理十分简单,容易实现 (2)LR是互联网中比较有影响力的算法,是广告点击率(CTR)预测的基础算法(要知道,广告可是互联网公司的盈利来源) (3)LR是深度学习的基本组成单元(激活函数) 1、逻辑回归初识: 给定N个样本,(x,y),x表示特征向量,y为标签(-1,1)。
2017-08-07 19:33:22
586
原创 深度学习,机器学习面试问题
1.为什么使用Relu激活函数,作用是什么? 如不特别说明,激活函数一般是指非线性激活函数,使用激活函数的目的是为了提高网络的非线性建模能力,如果只是卷积和全连接操作,那么网络模型还只是在线性空间上的表达 1)sigmoid激活函数:处处可导,两侧接近于0.sigmoid函数的软饱和性限制了神经网络的发展,网络传导的时候,若节点调入饱和区,(sigmoid关于输入的导数)改点导数为0,也就表示为
2017-07-24 16:31:29
613
原创 python:面向过程和面向对象编程思想
一、区别 面向过程:在实现的时候,每个过程都需要一个函数 面向对象: 二、面向对象和类 类的组成:以狗为例 (1)类名:(狗) (2)类的属性:一组数据(狗的毛色,重量等) (3)类的方法:(狗的功能) 三、全局变量 实际上就是使用self初始化,然后就可以在类的方法里面直接调用该变量class Cat: def __init__(self,new_name,new_age
2017-07-24 12:35:52
2997
原创 机器学习面试题
1.svm算法的原理、如何组织训练数据、如何调节惩罚因子、如何防止过拟合、svm的泛化能力、增量学习 SVM算法原理:通过学习一个超平面来进行二分类,这个超平面可以用函数f(x)=W*X+b,当f(x)等于0时,X便是位于超平面上的点,大于0小于0分别对应着1类和-1类(标签可变),超平面的确定标准就是这个超平面到数据点之间有着最大间隔(函数间隔,几何间隔),一般都使用几何间隔,几何间隔就是点到超
2017-07-15 20:18:07
1150
原创 ROC曲线原理及其matlab实现源码
ROC曲线和AUC经常用来评价二分类器的好坏,ROC简单的说就是在不断地调整阀值(正例置信度)的条件下,求TPR(True Positive Rate)和FPR(False Positive Rate)的值,具体的定义如下图: 由于我们实验室做的是气象方面,所以使用的是POD,FAR和CSI 四个特殊点和一条直线: (1)(0,0)全部预测为负类,TPR=FPR=0,即TP=FP=0
2017-07-11 13:44:36
5739
2
原创 机器学习:深度信念网络(DBN)原理和实现
深度信念网络结构,经典结构,直接上图: DBN由多个RBM堆叠而成,训练过程由预训练和微调构成 深度信念网络训练步骤: (1)预训练:分别单独无监督的训练每一层RBM网络,确保特征向量映射到不同特征空间是,都尽可能的保留特征信息;具体怎么训练呢,往下看 通过一个非监督贪婪逐层方法预训练获得权重(即不要类标,不断拟合输入,一次逐层),又叫对比分歧。好像还不是很具体,再看 在这个过程中,可
2017-07-09 16:41:04
31305
5
原创 caffe常用层Convolution,SoftmaxLayer和SoftmaxLossLayer原理解析
写在前面:昨天面试,面试官问各种关于caffe的问题,之前以为自己对caffe很熟,但是竟然一问三不知,深受打击。主要这段时间一直在看C++基础算法部分,都没怎么复习caffe,看来是人老了,脑子跟不上了,趁着双休,好好把caffe过一遍。主要是对常用层原理的一些说明 参考caffe的api document:http://caffe.berkeleyvision.org/doxygen/anno
2017-07-08 12:42:23
3001
原创 链表的初始化,增删改查等
这几天一直在看链表,刚开始有点迷糊,看了两天,后来发现链表实际上挺简单的,主要掌握住,怎么判断链表为空,链表怎么表示,增删改查操作时,应该怎么操作当前结点,注意内存泄漏,掌握住了以上几点,链表应该就差不多了,废话不多说,直接撸代码。#include<iostream>using namespace std;class Node{public: int data; Node *n
2017-07-05 17:31:12
1289
原创 python:raw_input和input区别
raw_input() 与 input()都是python的内建函数,实现控制台交互式输入,但二者有区别>>> raw_input_A = raw_input("raw_input: ")raw_input: abc >>> input_A = input("Input: ")Input: abcTraceback (most recent call last): File "<pyshe
2017-07-03 15:18:08
257
原创 机器学习:GBDT和XGBoost的区别
一、GBDT原理 1、简介 GBDT是一个基于迭代累加的决策树算法,它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。 他的核心就是累加所有树的结果最为最终结果(但实际上并不是简单的叠加),GBDT中的树都是回归树,构建每棵树的时候,我们会对特征和样本同时采样(引用RF思想) 2、公式推导 3、优缺点 优点:非线性变换多,表达能力强,而且不需要做复杂的特征工
2017-06-26 19:40:25
747
原创 机器学习:决策树算法
1.算法引入 先举一个简单的例子来介绍一下决策树到底是个什么东西。(参考:) 一个母亲要给女儿介绍对象,所以有了如下的对话: 女儿:多大年纪了? 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 这个女孩的判断过程就是一个决策树,她根据
2017-06-24 18:34:44
533
原创 XGBoost算法原理及代码(代码持续更新。。。)
前言:有监督算法的组成:模型,参数和目标函数 (1)模型:给入指定的Xi如何去预测Yi,姑且认为是一个Y关于X的函数吧,如线性回归Y=∑Wi*Xi (2)参数:就是指系数W (3)目标函数(损失+正则):目标函数的作用是找到比较好的参数W,来更好地预测,基本形式如下: 常见的误差函数有: (1)平方误差: (2)logistic误差函数: 正则化有L2和L1正则化(其区别可以看
2017-06-22 17:57:58
5736
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人