- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 数据库常见问题
https://www.cnblogs.com/wenxiaofei/p/9853682.html 数据库常见问题https://www.cnblogs.com/takumicx/p/9998844.html 事务的理解5.SQL语言分类SQL语言共分为四大类:数据查询语言DQL数据操纵语言DML数据定义语言DDL数据控制语言DCL。https://www.cnblogs.com/yanqb/p/10751348.html 数据库优化1.对查询进行优化,要尽量避免全表扫描,首先.
2020-12-16 12:24:53
334
原创 LR面试点
逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的,5:逻辑回归如何分类。伯努利分布。伯努利分布有一个简单的例子是抛硬币,抛中为正面的概率是p,抛中为负面的概率是1−p.sigmoid函数极大似然函数+伯努利 建模目标函数:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值(模型已定,参数未知)
2020-10-11 17:37:41
172
原创 SVM面试
SVM 原理SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型):当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。注:以上各SVM的数学推导应该熟悉:硬间隔.
2020-10-11 16:33:57
227
原创 树模型从决策树到RF再到XGB
1.决策树的理解:模型的不确定性降低的越快越好主要是ID3算法,C4.5算法和CART算法,其中ID3算法的评价指标是信息增益,C4.5算法的评价指标是信息增益率,CART算法的评价指标是基尼系数。CART是一棵二叉树,对分类和回归都适用,对于回归树用平方误差最小化,对分类树用基尼指数进行特征选择。分类时和ID3、C4.5类似;回归时会遍历变量j, 对固定的切分变量扫描切分点s,计算MSE,选择使得MSE最小的(j,s)对。CART之所以使用Gini指数是因为熵需要计算log,速度较慢2.信息增益
2020-09-22 23:19:46
341
1
原创 关于考研的反省和一些感悟
事情不说了,先说最大的感受:成功学忽悠的当下,无数功利化的人时刻瞄准着每一个赚钱的风口。在金钱面前,任何人都可以说他的热爱的。曾经我对这种功利化的人是鄙视的,总觉得对行业本身的热爱能够胜过这些功利化主义者,但是如今发现,自己的能力远远不够。而你对学科的深情在考核面前,一文不值,只会反作用于自身变成难以拔出的毒药。今天看到知乎风与晴有感而发,引用一下高度赞同之处:一切需要长期努力和延迟满足的任务都为了考研这件事让步。在两年半的这些日子里,无论你在做什么,身处哪里,与谁交谈,不论你是在学习工作、睡觉吃
2020-07-21 17:56:42
504
转载 panda用法
数据提取主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。1、按索引提取单行的数值df_inner.loc[3]2、按索引提取区域行数值df_inner.iloc[0:5]3、重设索引df_inner.reset_index()4、设置日期为索引df_inner=df_inner.set_index(...
2019-06-10 22:37:20
700
原创 深度学习——LSTM
发现博客上对于LSTM的介绍无非两种类型:第一种是纯理论,讲得人一脸懵逼第二种是纯代码,也让人头大所以我打算采用理论和实现相结合的方式来写这篇博客。实战1——一个基于TensorFlow的简单故事生成案例:带你了解LSTM实战2——《安娜卡列尼娜》文本生成——利用 TensorFlow 构建 LSTM 模型后期更新...
2019-06-02 16:36:29
1288
原创 算法刷题:队列和栈
思路key:push实现后进先出value:新数进入临时队列(eg:2)将原队列的值放入临时(eg:1,2)将临时队列放入原队列(eg:1,2)
2019-05-18 15:44:02
272
原创 AdaBoosting and Stacking
第一次没被拟合的点,增强学习基于同一组数据但是每个子模型认为的每个点的权重不同集成学习key:stackingvalue:神经网络,神经元为模型
2019-04-16 16:56:31
283
原创 随即森林/Extra-Tress/回归问题
随机森林key: 随机森林value:基模型 为Decision Tree 的Bagging 进一步增强随机性value: Decision Treevalue:最优维度、最优阈值更快的训练速度(不用最优化分)from sklearn.ensemble import RandomForestClassifierrf_clf = RandomForestClassifier(n_e...
2019-04-15 17:42:02
801
原创 Bagging
key:bagging(集成学习)value:1.创建更多子模型,要保持子模型的差异性2.投票key:差异性value:每个子模型只看数据的一部分example:500个样本数据,每个子模型只看100个数据problem:只看数据的一部分的局限性会不会不准确answer:投票解决,模型越多。准确性越高key:如何创建差异性value:取样:放回/不放回example:500个...
2019-04-15 17:02:46
533
原创 爬虫练习
key:LDA 潜在狄利克雷分布value:不同词语共同出现的频率 来进行 聚类分组1.现在我们载入之前爬取的文件,把文本提取出来2.利用结巴分词工具,对文本分词3.利用LDA进行话题提取1.提取key:提取value:open->指针 -readlines-> lines -str-> linef = open('d:/jokes.txt','r',encod...
2019-04-09 16:59:30
239
原创 写在前面
我不想介绍自己过多,因为没什么值得介绍的、出彩的地方;无疑我是一个失败者,目前对于我来说,唯一宽慰的地方就是去学习新的、有用的知识来填补内心的自卑与伤感,以及对未来的迷茫与踌躇;与所有前言一样,感谢您的阅读,更多的是记录成长,这里我不妨回顾一下我的学习方法,以此来探求我为何要写博客的原因;初中时我的主要学习方法是总结,这种方法是仅仅停留在宏观之上即每次考完试之后总结优势与弱势,并与父母交流;...
2019-04-08 17:32:10
109
增量式行填充图 - 递推更新.zip
2020-04-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人