数据挖掘topic

最新推荐文章于 2025-03-31 10:00:00 发布

weixin_33958585

最新推荐文章于 2025-03-31 10:00:00 发布

阅读量138

点赞数

CC 4.0 BY-SA版权

文章标签： python 人工智能爬虫

原文链接：https://my.oschina.net/SearchVera/blog/906929

统计语言模型
1. N元文法模型：《数学之美》page54
2. 工程技巧,平滑方法：page60
分词
1. 基于字符匹配：最长词匹配，歧义词和未登录词处理不好
2. 基于统计：相邻的字同时出现的次数越多，就越可能构成一个词。隐马尔科夫模型 + N-gram
文本相似度计算
1. TF-IDF + 余弦相似度： TF-IDF，余弦相似度
2. 奇异值分解(SVD)
word2vec
1. 介绍 2.原理公式

特征选择

特征选择好文章，特征选择：卡方检验，特征选择：信息增益，特征选择：woe, IV，特征选择：LR
r2：方程的确定系数，表示X对Y的解释程度，取值在[0, 1]之间，越接近1表示对Y的解释程度越好算法具体
Pearson相关系数
正则化：把额外的惩罚加到已有模型上，防止过拟合并提高泛化能力
1. L1范数：让特征稀疏，很多w变为0
2. L2范数：岭回归，改善过拟合，让每个w都很小
3. 通俗易懂的好文章 4. L1,L2不同效果的原因
规则引擎
- 多模式匹配：dictmatch算法
- 单模式匹配：bm(Boyer-Moore)算法好文章
- 数据结构：trie树
爬虫
1. from sgmllib import SGMLParser
推荐系统
- 推荐系统入门 ,推荐系统：SVD
python面试题
海量数据面试题
防止过拟合
1. 使用简单的模型 2. 降维 3. L2范数 4.算法本身（svm松弛变量，决策树剪枝）5.增加样本（例如复制图片） 6.drop out 7. early stop
分布式神经网络训练
归一化原因
1. 过大或过小的数值可能导致计算浮点的上溢或下溢
2. 不同的数值范围导致不同属性对模型的重要性不同，对优化造成困难，训练时间变长
3. 机器学习常用方法（正则）都假设属性取值在以0为均值的附近
连续特征离散化优势
梯度消失，爆炸解决办法