数据挖掘topic

1.机器学习算法

常用算法公式汇总

  1. 西瓜书
  2. 神经网络: neural-networks-and-deep-learning-zh
    1. 优点:准确率高,可并行计算,逼近复杂的非线性关系,做特征提取
    2. 缺点:需要大量参数,解释性差,训练时间长
    3. 种类:CNN(卷积),RNN(循环),DNN(全连接神经元)
  3. GBDTGBDT和随机森林比较GBDT总结
  4. xgboost公式推导原始pptxgboost与gbdt区别参数调优运行方法
  5. 神经网络算法:owlqnSGDMomentum
  6. 神经网络分类损失函数
  7. 激活函数激活函数作用
  8. logistic regressionlogistic和朴素贝叶斯的区别LR和softmax关系
  9. 多分类auc计算
  10. GeoHash核心原理解析
  11. 决策树缺失值处理
  12. 聚类-kmeans
  13. 聚类-dbscan聚类算法
  14. 聚类-社区发现Louvain算法 , 算法讲解
  15. 生成模型vs判别模型
  16. 标准线性回归,最小二乘求解为啥线性回归使用最小二乘?
  17. 概率校准--calibration
  18. ROC, AUC
  19. 跳出局部最小值的方法

2.概率和线性代数

  1. 期望、方差、协方差及相关系数的基本运算
  2. 最大似然估计
  3. 梯度下降法好文章
  4. 特征值分解,奇异值分解,主成分分析有用文章原理讲解好文章
  5. EM算法
  6. 概率面试题
  7. 常用概率分布
  8. 蒙特卡洛抽样

3.自然语言处理

  1. 统计语言模型
    1. N元文法模型:《数学之美》page54
    2. 工程技巧,平滑方法:page60
  2. 分词
    1. 基于字符匹配:最长词匹配,歧义词和未登录词处理不好
    2. 基于统计:相邻的字同时出现的次数越多,就越可能构成一个词。 隐马尔科夫模型 + N-gram
  3. 文本相似度计算
    1. TF-IDF + 余弦相似度: TF-IDF余弦相似度
    2. 奇异值分解(SVD)
  4. word2vec
    1. 介绍 2.原理公式

4. 工程知识

  1. 特征选择

    特征选择好文章特征选择:卡方检验特征选择:信息增益特征选择:woe, IV特征选择:LR

  2. r2:方程的确定系数,表示X对Y的解释程度,取值在[0, 1]之间,越接近1表示对Y的解释程度越好 算法具体

  3. Pearson相关系数

  4. 正则化:把额外的惩罚加到已有模型上,防止过拟合并提高泛化能力

    1. L1范数:让特征稀疏,很多w变为0
    2. L2范数:岭回归,改善过拟合,让每个w都很小
    3. 通俗易懂的好文章 4. L1,L2不同效果的原因
  5. 规则引擎

    • 多模式匹配:dictmatch算法
    • 单模式匹配:bm(Boyer-Moore)算法 好文章
    • 数据结构:trie树
  6. 爬虫

    1. from sgmllib import SGMLParser
  7. 推荐系统

  8. python面试题

  9. 海量数据面试题

  10. 防止过拟合

    1. 使用简单的模型 2. 降维 3. L2范数 4.算法本身(svm松弛变量,决策树剪枝)5.增加样本(例如复制图片) 6.drop out 7. early stop
  11. 分布式神经网络训练

  12. 归一化原因

    1. 过大或过小的数值可能导致计算浮点的上溢或下溢
    2. 不同的数值范围导致不同属性对模型的重要性不同,对优化造成困难,训练时间变长
    3. 机器学习常用方法(正则)都假设属性取值在以0为均值的附近
  13. 连续特征离散化优势

  14. 梯度消失,爆炸解决办法

转载于:https://my.oschina.net/SearchVera/blog/906929

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值