- 博客(137)
- 资源 (4)
- 收藏
- 关注
原创 docker常用命令
制作docker build -t flask:1.0 .删除imagedocker rmi id运行docker run :创建一个新的容器并运行一个命令docker create :创建一个新的容器但不启动它docker exec :在运行的容器中执行命令docker run -it -p 8000:8000 -v /home/testlog:/code/log flask:1.2 --log-level=debugdocker run -d --name=flask0 -p 8000
2020-11-18 16:51:44
379
原创 行人属性
行人属性PETA Dataset共19000张行人样本,包含61个二分类属性和4个多分类属性。PA-100K Dataset(基于现实监控场景抓取)共10万个行人样本,包含26个属性。RAP Dataset(目前较权威的行人属性识别数据集)共41585张行人样本,包含69个二分类属性和3个多分类属性https://github.com/IEC-lab/Pedestrian-Attribute-Recognition框架:mxnet数据集: https://pan.baidu.com/s/1
2020-11-11 15:47:01
1993
2
原创 人脸识别
人脸识别主要包括人脸检测、特征提取、特征对比人脸检测mtcnnhttps://github.com/kpzhang93/MTCNN_face_detection_alignment多任务卷积神经网络PNet,RNet,ONet根据特征点进行人脸对齐yolo不能得到特征点dlibhttps://github.com/davisking/dlib特征提取facenethttps://github.com/davidsandberg/facenetmtcnn进行人脸
2020-11-11 15:38:53
342
原创 kafka消息长度限制
更改为10M客户端代码增加:max_request_size=10485760,服务端配置:replica.fetch.max.bytes=10485760,message.max.bytes=10485760
2020-09-16 14:37:26
5538
转载 Pedestrian Attribute Recognition
目录行人属性识别主要挑战数据集RAPPETAPA-100k评价指标mAexample-based evaluation主流方法及未来方向相关工作HydraPlus...
2020-08-25 15:46:31
1859
原创 Keras限制tf后端的gpu显存用量
训练模型## keras example importsfrom keras.models import Sequentialfrom keras.layers import Dense, Dropoutfrom keras.layers import Embeddingfrom keras.layers import LSTM ## extra imports to set GPU optionsimport tensorflow as tffrom keras import bac.
2020-08-21 15:44:14
303
原创 nifi mysql CDC to mysql
https://community.cloudera.com/t5/Community-Articles/Change-Data-Capture-CDC-with-Apache-NiFi-Part-1-of-3/ta-p/246623https://community.cloudera.com/t5/Community-Articles/Change-Data-Capture-CDC-with-Apache-NiFi-Part-2-of-3/ta-p/246519https://commun..
2020-08-21 15:25:57
920
1
原创 redis哨兵模式配置
redis配置redis1#bind 127.0.0.1 protected-mode nodaemonize yesappendonly yes loglevel noticelogfile "/home/redis-5.0.2/logs/redis.log"dir "/home/redis-5.0.2"redis2#bind 127.0.0.1 protected-mode nodaemonize yes appendonly yes slaveof re
2020-08-11 15:51:12
164
原创 milvus高可用搭建
**- 基于keepalived部署milvus高可用问题:双写冷备:两个写节点不能同时启动,否则会导致数据重复,通过增加与网关的连通性来解决可能同时启动的问题,但不能完全保证没有特殊情况的存在。另外宕机时可能会导致数据丢失。一写一读:可以同时启动,但是写节点宕机时,数据不能写入。** - 基于minio的共享存储,写入速度比本地磁盘慢,如果数据量较大需要适当减小index_file_size,默认1024M,可设置为512M。**一、milvus安装docker pull milvus新建目录
2020-08-11 15:39:40
1635
1
原创 minio对象存储搭建
一、ntp 服务器1 安装ntpyum install ntp1.1 服务端配置vi /etc/ntp.confrestrict 192.168.16.0 mask 255.255.255.0 nomodify notrapserver ntp1.aliyun.comserver time1.aliyun.comrestrict ntp1.aliyun.com nomodify notrap noqueryrestrict time1.aliyun.com nomodify notra
2020-08-11 15:30:31
710
原创 AsyncProxyPool代理池中间件
import requestsfrom scrapy.downloadermiddlewares.retry import RetryMiddlewarefrom scrapy.utils.response import response_status_messageimport base64import logginglogger = logging.getLogger(__name...
2019-06-26 14:01:43
710
原创 设计最优数据输入管道
设计最优数据输入管道使用 prefetch 函数去重叠 数据读取器 和 数据消耗器的工作。推荐在输入管道的末端添加 prefetch(n) (n是batch size),以重叠 CPU 上的变换 及 GPU/TPU设备上的训练。 dataset = dataset.batch(batch_size=FLAGS.batch_size) dataset = dataset.pre...
2019-01-07 17:16:11
372
原创 使用TensorFlow Dataset 加速数据处理及训练
使用TensorFlow Dataset 加速数据处理及训练https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/5_DataManagement/tensorflow_dataset_api.ipynbimport tensorflow as tffrom tensorflow.examples...
2019-01-07 17:13:11
3231
原创 应用TensorFlow构建lstm
应用TensorFlow构建lstmimport tensorflow as tffrom tensorflow.contrib import rnnfrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/data/", one_hot=True)...
2019-01-04 15:48:36
499
原创 应用TensorFlow高级API构建卷积神经网络(2)--api解释
tf.estimator.inputs.numpy_input_fndef numpy_input_fn(x, y=None, batch_size=128, num_epochs=1, shuffle=None, ...
2019-01-03 09:40:07
437
原创 应用TensorFlow高级API构建卷积神经网络(1)--代码
应用TensorFlow高级API构建卷积神经网络两个卷积层,两个全连接层输入 [sample * 28 * 28 * 1 ] (灰度图)[ 28 * 28 1 ] --> (32个卷积核,每个大小551,sample方式卷积) --> [ 28 * 28 * 32] --> (池化 22 ,步长2)–> [14 *14 *32][ 14 * 14 32] -...
2019-01-03 09:36:55
427
原创 应用TensorFlow构建卷积神经网络
应用TensorFlow构建卷积神经网络两个卷积层,两个全连接层输入 [sample * 28 * 28 * 1 ] (灰度图)[ 28 * 28 1 ] --> (32个卷积核,每个大小551,sample方式卷积) --> [ 28 * 28 * 32] --> (池化 22 ,步长2)–> [14 *14 *32][ 14 * 14 32] ...
2019-01-03 09:32:00
203
原创 应用TensorFlow高级api构建全连接神经网络(2)--api解释
tf.layers.densetf.layers.dense( inputs, units, activation=None, use_bias=True, kernel_initializer=None, bias_initializer=tf.zeros_initializer(), kernel_regularizer=None, ...
2019-01-03 09:30:21
480
原创 应用TensorFlow高级api构建全连接神经网络(1)--代码
应用TensorFlow高级api构建全连接神经网络https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/3_NeuralNetworks/neural_network.ipynbimport numpy as npimport tensorflow as tffrom tensorflow....
2018-12-29 16:04:12
419
原创 应用TensorFlow构建全连接神经网络
应用TensorFlow构建全连接神经网络https://github.com/sjchoi86/tensorflow-101/blob/master/notebooks/mlp_mnist_xavier.ipynbimport numpy as npimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import...
2018-12-29 16:02:09
264
原创 TensorFlow深度神经网络配置
建议DNN配置名称配置权重初始化He initialization激活函数ELU归一化Batch Normalization正则化dropout优化器Adam学习速率调整None全连接层from tensorflow.contrib.layers import fully_connectedwith tf.name_scop...
2018-12-29 15:55:12
624
原创 9 前向神经网络
9 前向神经网络01 常用激活函数Sigmoid激活函数Tanh激活函数ReLU激活函数02 梯度消失Sigmoid激活函数将输入z映射到区间(0, 1) , 当z很大时, f(z)趋近于1; 当z很小时, f(z)趋近于0。 其导数在z很大或很小时都会趋近于0, 造成梯度消失的现象。Tanh激活函数相当于Sigmoid的平移, 同样会出现梯度消失。03 ReLU激活函数的...
2018-12-25 09:42:57
540
原创 5 非监督学习
5 非监督学习01 聚类聚类是在事先并不知道任何样本类别标签的情况下, 通过数据之间的内在关系把样本划分为若干类别, 使得同类别样本之间的相似度高, 不同类别之间的样本相似度低。02 K均值算法的优缺点缺点: 例如受初值和离群点的影响每次的结果不稳定、 结果通常不是全局最优而是局部最优解、 无法很好地解决数据簇分布差别比较大的情况(比如一类是另一类样本数量的100倍) 、 不太适用于离散...
2018-12-20 09:13:50
523
原创 4 降维
4 降维01 主成分分析–PCAPCA选择的是投影后数据方差最大的方向。 由于它是无监督的, 因此PCA假设方差越大, 信息量越多, 用主成分来表示原始数据可以去除冗余的维度, 达到降维。02 线性判别分析–LDALDA选择的是投影后类内方差小、 类间方差大的方 向。 其用到了类别标签信息, 为了找到数据中具有判别性的维度, 使得原始数据 在这些方向上投影后, 不同类别尽可能区分开。...
2018-12-20 09:11:18
253
原创 2 模型评估
2 模型评估01 评估指标准确率的局限性准确率是指分类正确的样本占总样本个数的比例。当不同类别的样本比例非常不均衡时,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平 均) 作为模型评估的指标。精确率与召回率精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。召回率是指分类正确的正样本个数占真正的正样本个数的比例。F1 score是精准率和...
2018-12-14 08:51:43
279
原创 1 特征工程
1 特征工程01 特征归一化、标准化方法归一化–线性函数归一化(Min-Max Scaling)标准化–零均值归一化(Z-Score Normalization)原因参数更新速度变得更为一致,收敛速度更快。特点标准化是更常用的手段,归一化的应用场景是有限的。标准化更好保持了样本间距。标准化更符合统计学假设。必须要特征在0到1之间,此时就只能用归...
2018-11-29 16:25:17
203
原创 keras--earlyStopping获取最佳模型
best_weights_filepath = './best_weights.hdf5'earlyStopping=kcallbacks.EarlyStopping(monitor='val_loss', patience=10, verbose=1, mode='auto')saveBestModel = kcallbacks.ModelCheckpoint(best_weights_fi...
2018-11-16 09:10:45
5948
1
原创 机器学习年鉴总结之偏差与方差
偏差、方差算法在开发样本集上的错误率为 16%,我们可以把这 16%分成两部分:1.算法在训练样本集上的错误率,本例中为 15%,这通常称作算法的偏差 。2.算法在开发/测试样本集上相对训练样本集上高出的错误率部分, 本例中,算法那在开发样本集上的错误率比在训练样本集上的错误率高 1%,这通常称作算法的方差 。减少可避免的偏差方法如果你的学习算法中的可避免偏差很高,你可以尝试使用下面的方...
2018-11-13 14:22:12
277
原创 机器学习年鉴总结之数据集
三个数据集:1.训练数据集 — 用来训练你的算法模型2.开发数据集 — 用于调整学习模型,比如调整参数、选择特征等。这部分数据也称 作预留 交叉验证数据集。3.测试数据集 — 用于评估模型性能,这部分数据集不参与模型调整和参数更新。选择最终实际要用的数据,作为开发和测试样本集。使用同一分布的开发和测试数据集。在开发测试集上表现很好,但是在测试集上表现得并不理想。如果你的开发数据...
2018-11-13 14:21:01
299
原创 Graphviz、pydotplus绘制梯度提升树结构图
Graphviz、pydotplus绘制梯度提升树结构图安装pip install pydotplus安装Graphviz。https://blog.youkuaiyun.com/a1368783069/article/details/52067404# 梯度提升树结构图from sklearn import treeimport pydotplus # 绘制前十颗树,并保存为png# ...
2018-10-24 13:50:37
1563
原创 pandas-profiling数据预览分析
安装与调用pip install pandas-profilingimport pandas_profilingjupyter中查看pandas_profiling.ProfileReport(df)保存文件查看pfr = pandas_profiling.ProfileReport(df)pfr.to_file("./example.html")参考:https:/...
2018-10-22 14:20:13
1362
1
原创 时间序列预测--ARIMA、LSTM
时间序列预测–ARIMA、LSTMARIMAARIMA模型全称为差分自回归移动平均模型(Auto regressive Integrated Moving Average Model,简记ARIMA)。ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时...
2018-10-16 14:45:18
14724
1
原创 文本分析--tfidf、word2vec
TF-IDF词频(TF) = 某个词在文章中的出现次数 / 文章总词数 或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)TF-IDF = 词频(TF) * 逆文档频率(IDF)主要应用:关键词提取,找相似文章,文章自动摘要,作为分类或聚类的输入。word2vecword...
2018-10-12 09:31:57
6431
转载 如何感性地理解EM算法?
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更加严谨的语言表达出来而已。打个比方,一个梨很甜,用数学的语言可以表述为糖分含量90%,但只有亲自咬一口,你才能真正感觉到这个梨有...
2018-10-10 15:50:57
181
原创 推荐算法
推荐算法1. slope one该算法适用于物品更新不频繁,数量相对较稳定并且物品数目明显小于用户数的场景。依赖用户的用户行为日志和物品偏好的相关内容。优点:1.算法简单,易于实现,执行效率高;2.可以发现用户潜在的兴趣爱好;缺点:依赖用户行为,存在冷启动问题和稀疏性问题。参考:https://blog.youkuaiyun.com/xidianliutingting/art...
2018-10-10 14:30:44
363
原创 常用异常检测算法
常用异常检测算法统计假设检验假设原数据服从某个分布(如高斯分布),然后计算 μ 和 σ ,再计算 μ ±3σ 的区间,最后落在区间之外的数据点就被认为是异常值。(可通过取log进行变换)统计检验方法适用于一维数据。比如在反欺诈领域,用户支付金额、支付频次、购买特定商品次数等等,都适用于上述方法。DBSCAN一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d,如果d...
2018-10-08 15:01:41
4867
转载 LightGBM算法的特别之处
转自:https://blog.youkuaiyun.com/ictcxq/article/details/78733629 自从微软推出了LightGBM,其在工业界表现的越来越好,很多比赛的Top选手也掏出LightGBM上分。所以,本文介绍下LightGBM的特别之处。LightGBM算法在模型的训练速度和内存方面都有相应的优化。基于树模型的boost...
2018-09-27 15:01:19
1714
原创 LightGBM简单使用
# pip install lightgbm==2.1.2import lightgbm as lgbimport pandas as pdfrom pandas import DataFrameimport gcfrom sklearn.model_selection import train_test_splitfrom matplotlib import pyplot #...
2018-09-27 14:40:02
2910
原创 xgboost基本原理
目标函数其中,上式第一项称为误差函数,常见的误差函数有平方误差,logistic误差等等,第二项称为正则项,常见的有L1正则和L2正则,表示树的复杂度的函数,越小复杂度越低,泛化能力越强。基学习器分类树和回归树(CART)树集成模型学习每一次保留原来的模型不变,加入一个新的函数f到我们的模型中。f 的选择标准—最小化目标函数!通过二阶泰勒展开等,我们得到了最终的目标函数:...
2018-09-26 16:49:55
303
oracle11g-el7依赖
2018-06-21
python连接oracle包
2018-04-23
gcc安装依赖包
2018-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人