
应用型
文章平均质量分 69
lamusique
这个作者很懒,什么都没留下…
展开
-
遗传算法的原理与demo
遗传算法python(含例程代码与详解)_馋学习的身子的博客-优快云博客_遗传算法python代码原创 2022-03-26 19:19:16 · 604 阅读 · 0 评论 -
模拟退火(SA, Simulated Annealing)算法解决旅行商TSP问题
01 什么是旅行商问题(TSP)?TSP问题(Traveling Salesman Problem,旅行商问题),由威廉哈密顿爵士和英国数学家克克曼T.P.Kirkman于19世纪初提出。问题描述如下:有若干个城市,任何两个城市之间的距离都是确定的,现要求一旅行商从某城市出发必须经过每一个城市且只在一个城市逗留一次,最后回到出发的城市,问如何事先确定一条最短的线路已保证其旅行的费用最少?如下图所示:02 模拟退火算法(Simulate Annealing Arithmetic,SAA)原创 2022-03-24 21:19:52 · 6667 阅读 · 0 评论 -
TransE模型的python代码实现
TransE模型的简单介绍&TransE模型的python代码实现_土豆面包的博客-优快云博客_transe模型转载 2022-02-22 20:20:28 · 1399 阅读 · 0 评论 -
Python实现曲线点抽稀算法的示例
https://www.jb51.net/article/125561.htm转载学习转载 2022-02-22 20:08:32 · 439 阅读 · 0 评论 -
基于Dijkstra的K条最短路径算法:Yen‘s Algorithm
Dijkstra算法【史上最清晰】手写迪杰斯特拉-Dijkstra(考试用)_哔哩哔哩_bilibiliK条最短路径算法:Yen's Algorithm算法背景K 最短路径问题是最短路径问题的扩展和变形。1959 年,霍夫曼(Hoffman) 和帕夫雷(Pavley)在论文中第一次提出k 最短路径问题。 k 最短路径问题通常包括两类:有限制的k 最短路问题和无限制的K 最短路问题。 前者要求最短路径集合不含有回路,而后者对所求得的最短路径集合无限制。算法简介Yen's算法是Yen原创 2022-02-22 17:09:12 · 3596 阅读 · 1 评论 -
我的第二次知识图谱问答(末尾gan货)
这是知识图谱问答博客的系列二,相比于上一篇博客我的第一次知识图谱问答,区别在于,创建知识图谱的方式不一样、意图识别+槽位提取的方法不同。原创 2022-02-06 19:52:15 · 1442 阅读 · 0 评论 -
我的第一次知识图谱问答
这次想写一个知识图谱问答系列,从文本读取的知识图谱元素到智能处理的对话问答系统,涉及到实体识别、意图识别、槽位提取等技术。这里解释一下名词的含义。实体识别:这个一般处理是正则表达式,或者是训练分类也就是BIO标签tag+softmax....有些人说是前者规则,后者学习。哈哈哈都行~~~意图识别:就是判别这个问题是什么类型的问题,表示什么意思。比如,感冒可以吃什么药。我们可以知道这个问题是根据病来查吃什么药。。槽位提取:就是对提的问题关键词进行提取,问题的关键词就是需要提取的槽位,上面一个例子原创 2022-02-05 19:43:54 · 2408 阅读 · 0 评论 -
速度优化——python的pandas批量读取CSV、Excel等文件
速度优化——python的pandas批量读取CSV、Excel等文件有一堆命名、格式、内容样式都一样的文件,逐个读取过于麻烦,那么可以选择批量读取(本质上是多线程的思想)import pandas as pdimport numpy as npimport glob,ospath=r'D:/data' #批量表格所在文件路径file=glob.glob(os.path.join(path, "HIST_DMIND_MERGE_201809**.csv")) #每一...原创 2021-01-10 16:11:50 · 3158 阅读 · 1 评论 -
应用 - gensim如何得到word2vec词向量
从三个方面去说明word2vec词向量中文语料处理(python gensim word2vec总结) python训练work2vec词向量系列函数(python gensim) python训练work2vec词向量实例(python gensim)一、word2vec词向量中文语料处理(python gensim word2vec总结)目录中文语料处理法一:语料处理为列表法二:语料是文件(处理为迭代器) 对一个目录下的所有文件生效(法1) ...原创 2020-12-04 19:48:32 · 4085 阅读 · 0 评论 -
ResNet+FPN实现+白嫖代码
===========================================================有现成的代码:https://github.com/Kongsea/FPN_TensorFlow推荐根据该博客来学习:https://www.jianshu.com/p/324af87a11a6============================================================纸上得来终觉浅,须知此事要coding!ResNet+FPN原创 2020-11-04 10:57:31 · 14120 阅读 · 1 评论 -
RPN详解
RPN 思路:1、先通过conv层+pooling层+relu层,可以是vgg,得到featuremaps。2、在featuremaps上提取对应的图。在第一步基础上,先通过rpn生成regionproposals。通过softmax判断anchors(9个框),是foreground还是background,再通过boundingboxregression进行修正anchors,也就是进一步确定proposals。3、目的是为了得到proposalsfeat...转载 2020-11-03 16:38:11 · 7354 阅读 · 0 评论 -
MTCNN教学+代码白嫖
MTCNN(Multi-task convolution network)多任务卷积神经网络https://www.bilibili.com/video/BV1i741177hd?p=2https://www.bilibili.com/video/BV1fJ411C7AJhttps://github.com/bubbliiiing/mask-recognizehttps://blog.youkuaiyun.com/weixin_44791964/article/details/103530206...原创 2020-10-31 10:18:44 · 291 阅读 · 0 评论 -
如何DIY ResNet的分类问题
参考博客:https://www.jianshu.com/p/c4723a4409cf白嫖代码!!!原创 2020-10-26 21:39:52 · 330 阅读 · 0 评论 -
ResNet的细节之处
1、 RestNet网络1.1、 RestNet网络结构ResNet在2015年被提出,在ImageNet比赛classification任务上获得第一名,因为它“简单与实用”并存,之后很多方法都建立在ResNet50或者ResNet101的基础上完成的,检测,分割,识别等领域里得到广泛的应用。它使用了一种连接方式叫做“shortcut connection”,顾名思义,shortcut就是“抄近道”的意思,下面是这个resnet的网络结构:它对每层的输入做一个reference(X), 学习形成转载 2020-10-26 15:14:58 · 542 阅读 · 0 评论 -
该Repo内容为知乎专栏《机器不学习》的源代码
该Repo内容为知乎专栏《机器不学习》的源代码。专栏地址:https://zhuanlan.zhihu.com/zhaoyeyu代码框架TensorFlow包含内容1.anna_lstm基于RNN(LSTM)对《安娜卡列尼娜》英文文本的学习,实现一个字符级别的生成器。文章地址:《安娜卡列尼娜》文本生成——利用TensorFlow构建LSTM模型2.skip-gram实现skip-gram算法的Word2Vec,基于对英文语料的训练,模型学的各个单词的嵌入向量。文转载 2020-10-17 16:49:25 · 181 阅读 · 0 评论 -
协同过滤推荐算法总结
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算原创 2020-09-03 22:02:57 · 1356 阅读 · 0 评论 -
模型融合的一些思路集锦
前言特征工程 调参 模型融合我觉得是机器学习的三大神器了,我记得前面有些博客介绍过超参数调参方法、特征离散化等特征工程的一些知识。但是还没有正式介绍过模型融合的相关知识。似乎大家对模型融合没有太多认识哈,我其实接触的也少,平时也只是简单的多模型加权平均,适应于不同模型可能存在的过拟合互补;又或者使用bagging自举算法,做模型融合(我这多说几句,我平常模型融合的基学习器用的是LR,...原创 2019-07-23 20:16:34 · 1275 阅读 · 0 评论 -
归一化 标准化的一点认识与技巧
标准化和归一化的区别归一化其实就是标准化的一种方式,只不过归一化是将数据映射到了[0,1]这个区间中。标准化则是将数据按照比例缩放,使之放到一个特定区间中。标准化后的数据的均值=0,标准差=1,因而标准化的数据可正可负。原理数据归一化数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量...原创 2019-07-23 20:39:40 · 1398 阅读 · 0 评论 -
Xgboost算法之原理+代码
1. XGBoost简介xgboost一般和sklearn一起使用,但是由于sklearn中没有集成xgboost,所以才需要单独下载安装。xgboost是在GBDT的基础上进行改进,使之更强大,适用于更大范围。Xgboost算法思想就是根据特征分裂来生长一棵树,并不断地添加树,每次添加一个树,其实是去拟合上次预测的残差从而得到新函数,逐次迭代来提高模型性能。当我们训练完成得到k棵树,我们...转载 2019-07-19 12:40:19 · 21892 阅读 · 2 评论 -
特征工程——转换为正态分布(新更的内容干货满满)
几张图帮助快速了解内容https://blog.youkuaiyun.com/weixin_40040404/article/details/83025039特征处理之使数据分布逼近正态分布在机器学习和深度学习中,我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization...原创 2019-07-19 20:36:08 · 22167 阅读 · 7 评论 -
python正则表达式
https://blog.youkuaiyun.com/devcloud/article/details/96287735码住学习!原创 2019-07-21 12:50:41 · 134 阅读 · 0 评论 -
数据预处理:one-hot编码(One-Hot Encoding)
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-ho...转载 2019-07-25 20:37:12 · 567 阅读 · 0 评论 -
Seaborn中的kdeplot和distplot
SeabornSeaborn是基于matplotlib的Python可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替代物。Seaborn的安装>&...转载 2019-08-03 20:50:28 · 6737 阅读 · 1 评论 -
pandas中的set_index()和reset_index()
set_index()官方定义:使用一个或多个现有列设置索引, 默认情况下生成一个新对象DataFrame.set_index(keys,drop=True,append=False,inplace=False,verify_integrity=False)drop:默认为true,表示是否删除列作为新索引。append:是否增加列到原来的索引上。inpla...原创 2019-08-06 11:43:37 · 4842 阅读 · 0 评论 -
Python 多进程与多线程
https://www.jianshu.com/p/a69dec87e646看到这里,也许你会疑惑。这很正常,所以让我们带着问题来阅读本文章吧。问题:1、Python 多线程为什么耗时更长?2、为什么在 Python 里面推荐使用多进程而不是多线程?目录1 基础知识2 Python 多线程3 Python 多进程4 选择多线程还是多进程?5 Python:多任务,...转载 2019-08-08 16:46:17 · 176 阅读 · 0 评论 -
随机森林的“随机”在哪?
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。根据下列算法而建造每棵树:1.用M来表示训练用例(样本)的个数,N表示特征数目。 2.输入特征数目n,用于确定决策树上一个节点的决策结果;其中n应远小于N。 3.从M个训练用例(样本)中以有放回抽样的方式,取样k次,形成一个训练集(即bootstrap...原创 2019-08-13 14:11:42 · 3533 阅读 · 1 评论 -
暴力调参——GridSearchCV、RandomizedSearchCV、贝叶斯优化
https://blog.youkuaiyun.com/juezhanangle/article/details/80051256http://www.360doc.com/content/18/0707/15/7669533_768542933.shtml常用的暴力调参方法,我记得提到过GridSearchCV方法,它是基于网格搜索+交叉验证的,好像也没有怎么提到过其他的方法,今天就把他们补全好了...原创 2019-08-10 13:50:52 · 11186 阅读 · 1 评论 -
二分法的区间与选择
曾经看过一篇博客,认为二分法如果选取不当的话,会导致死循环的。当时并不觉得,但是平时编程还是出现了死循环的错误。这回仔细想了想,就打算写篇博客,给自己的脑子拨乱反正吧!内容不多,却是干货。二分法原理不多说,一般常用于查找,要求数组排序好。以C++为例,他给个数组a[10],但是我们应该怎么分配他的索引,即他的区间。——————————————————————————————————————...原创 2019-08-21 12:28:35 · 1648 阅读 · 0 评论 -
【转载】机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。数据挖掘、机器学习和推荐系统中的评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)简介。业内目前常常采用的评价指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等下图是不同机器学习算法的评价指标。本文针对二元分类器!本文针对二元分类器!!本...转载 2019-08-22 21:03:32 · 319 阅读 · 0 评论 -
处理不均衡数据(dealing with imbalanced data)
什么叫做不均衡数据?数据中一大堆梨,极少部分苹果。假设问别人是想吃梨子还是苹果?大概率回答是苹果。这就出现了数据的不均衡,永远都是猜测数据多的那一方。所以梨子笑了!反映到数据中来说,就是蓝色数据占比太少了!然后就是数据的不均衡导致数据出错,机器他就学歪了?!!!就是在想怎么解决啊。因为对于数据来说,特征工程很重要啊,数据分布也很重要的啊。解决方法1...原创 2019-07-11 12:43:24 · 545 阅读 · 0 评论 -
python笔记——拼接、排序、字典保存、字典转换、iloc和loc、添加子图、频数统计图(自定义区间)
主要是针对遇到的一些问题进行总结。1、拼接问题对于numpy的array数组怎么实现拼接,主要是有两种函数np.hstack、np.vstack另外还有c_、r_函数concatenate()函数concatenate()比append()效率更高,适合大规模的数据拼接,能够一次完成多个数组的拼接。numpy.concatenate((a1,a2,...), axis=0...原创 2019-07-05 19:01:17 · 996 阅读 · 0 评论 -
防止过拟合的处理方法
防止过拟合的四种方法:1、训练误差不再下降时,便进行阶段处理,避免继续学习造成过拟合2、增加数据量。从数据源头采集更多数据 复制原有数据并加上随机噪声 重采样 根据当前数据集估计数据分布参数,使用该分布产生更多数据等3、正则化,就是惩罚项 (lasso L2等等)4、神经网络深度学习常用的dropouthttps://blog.youkuaiyun.com/heyongluoyao...原创 2019-04-06 21:44:12 · 263 阅读 · 0 评论 -
SVM核函数的选取
在选用核函数的时候,如果我们对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最下的即为效果最好的核函数;或者也可以将多个核函数结合起来,形成混合核函数。在吴恩达的课上,也曾经给出过一系列的选择核函数的方法:如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM;如果特征的数量小,样本的数量正常,则选...原创 2019-04-01 16:59:21 · 697 阅读 · 0 评论 -
转载:LR与SVM的比较(感觉看的挺有收获)
在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多了,慢慢也就理解得更清楚了,所以现在整理一下,希望对以后面试机器学习方向的同学有所帮助(至少可以瞎扯几句,而不至于哑口无言ha(*^-^*))。(1)为什么将LR和SVM放在一起来进行比较?回答这个问...转载 2019-04-01 16:37:28 · 159 阅读 · 0 评论 -
对于特征离散化、特征交叉、连续特征离散化经典的解释(看的我很受益)
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决定性作用的...转载 2019-04-01 16:03:32 · 264 阅读 · 0 评论 -
转载:VS2013+opencv3.4配置+永久配置
VS2013+opencv3.4配置+永久配置博主已经安装了OpenCV3.1.0以及他的contrib_lib。后面为了学习他的dnn模块,就及时更新了他的OpenCV3.3.0用上了他的caffe模块,但是发现无法用上tensorflow的训练模型!一查博客才知道原来他的readNetFromTensorFlow函数并不成熟,他并不支持Net net = readNetFromTens...转载 2019-03-27 12:39:11 · 3377 阅读 · 1 评论 -
我的第一个C++操作MySQL
一直安装了MySQL,就是没有使用C++调用过。这回尝试一下。1、C++、MySQL5.7的联合环境搭建1、项目的建立,这需要引入MySQL相应的头文件,在此C++以及MySQL5.7的联合环境搭建,参考两份博客:https://www.cnblogs.com/shiyingzhi/p/7896259.html(搭建环境的细节在这)https://blog.youkuaiyun.com/qq_2220...原创 2019-03-31 13:17:58 · 344 阅读 · 0 评论 -
如何将配置好的OpenCV3.1的环境更改为OpenCV3.4的环境
不推荐重新安装OpenCV3.4,卸载OpenCV3.1。只需更改配置环境即可。(OpenCV3.4有很多优越的地方,比如我们采用DNN模块,就可以直接调用已经训练好的caffe模型。对于已经安装的OpenCV3.1而不去卸载,这是有意义的)1、新建工程,打开他的属性页。2. 设置目录 包含目录 库目录 选中OpenCV3.4下的库3、添加库opencv_calib...原创 2019-03-26 18:43:41 · 1273 阅读 · 0 评论 -
转载:MySQL数据库之python(三种方法)
Python操作MySQL数据库的三种方法【转载】https://blog.youkuaiyun.com/Oscer2016/article/details/70257024我也是从这份博客学习的,主要用的是MySQLdb转载 2019-03-18 21:58:02 · 187 阅读 · 0 评论 -
机器学习集成回归之随机森林法(four)
随机森林随机森林就是在数据子集上训练处一系列的模型。这些子集是从全训练数据集中随机抽取出来的。一种抽取方法是对数据行的随机放回取样,同自举集成bagging方法一样。另一种方法是每个决策树的训练数据集只是所有特征属性随机抽取的一个子集,并非全部的属性。集成应用本身有个基学习器,那么这里采用的基学习器则用决策树来近似随机森林。__author__ = 'mike-bowles'im...原创 2019-03-07 14:26:21 · 1309 阅读 · 1 评论