
机器学习,数据挖掘
文章平均质量分 55
NorthFish北海有鱼
simple notebook.想去硅谷写代码
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关联规则挖掘-粘贴自我的知乎
原创 2024-06-23 20:28:33 · 179 阅读 · 0 评论 -
word2vector-粘贴自我的知乎
对于常规句子来说,不是窗口越大越好,因为窗口太大的话,句子之间就没有前后依赖关系了。但是对于特定场景,比如用户偏好,每个用户的item之间存在强依赖关系,这种情况下,窗口越大越好。经过验证,窗口越大,训练速度越慢。3.mincount,取词的最小值。1.训练语料大小,最好在上千万样本。原创 2024-06-23 00:49:18 · 154 阅读 · 0 评论 -
聚类算法会在训练集上过拟合吗
总体来说,虽然聚类算法通常不容易过拟合,但在应用时仍然需要小心处理数据的质量、算法参数和模型复杂性等因素,以确保得到合理的聚类结果。1. **参数调整:** 一些聚类算法具有一些参数,可以通过调整这些参数来控制算法的复杂性,防止过度拟合。2. **降维:** 在应用聚类算法之前,可以考虑对数据进行降维,以减少数据的维度并去除一些不必要的噪声。4. **交叉验证:** 使用交叉验证可以评估模型的泛化性能,确保模型对未见过的数据表现良好。原创 2023-12-28 18:25:36 · 586 阅读 · 1 评论 -
数学概率论相关基础
概率论基础原创 2023-02-02 21:01:47 · 242 阅读 · 0 评论 -
xgboost和lightgbm-v2
无原创 2022-09-24 12:57:51 · 599 阅读 · 0 评论 -
线性回归和lr和svm_v2
无原创 2022-09-22 16:50:29 · 470 阅读 · 0 评论 -
word2vec
song2vec实际上是item2vec,是word2vec在推荐场景中的应用。就是用用户兴趣序列,去模拟自然语言处理中有前后逻辑关系的句子。用户的兴趣序列是根据用户行为来构建的,比如在音乐场景下,有不同的行为,播放,点赞,收藏,分享等。给不同的行为不同的权重。取一段时间内的行为来构建序列,比如长期兴趣序列和短期兴趣序列。最终得到的是一个用户兴趣偏好向量,按照偏好度排序的。word2vec的数学原理。item2vec不能处理物品冷启动问题,但是可以加一些策略来拯救一下,比如说用...原创 2020-11-17 13:42:48 · 299 阅读 · 0 评论 -
线性回归和lr和svm
lrhttps://www.debugger.wiki/article/html/1573704070030162原创 2020-11-06 16:54:07 · 286 阅读 · 7 评论 -
需要再读的文章
https://zhuanlan.zhihu.com/p/100019681https://zhuanlan.zhihu.com/p/58160982原创 2020-07-10 10:48:50 · 168 阅读 · 1 评论 -
大数据相关
1.fassi分布式存储向量的原理2.hdfs原理原创 2020-06-14 20:38:17 · 287 阅读 · 1 评论 -
机器学习理论相关
1.auc有两种计算方式:roc曲线的面积,简单粗暴的根据排列组合计算aucroc曲线的面积,根据混淆矩阵,真阳性率,假阴性率计算的,同时考虑了模型分正确和分错误的情况,在样本不平衡的情况下依然很好用。https://www.zhihu.com/question/39840928/answer/241440370 如何理解auc简单粗暴的计算auc:auc从物理意义上理解,是排列组合问题,有多少正负样本对满足:正样本预测值>负样本预测值。分子是:正样本预测值,大于负样本预测值的原创 2020-05-21 16:08:51 · 368 阅读 · 5 评论 -
python入门技能-特征分析(离散特征)
1.表格pd.crosstab例如tab = pd.crosstab(data_train['Pclass'], data_train['Survived'])print(tab)dummy = tab.div(tab.sum(1).astype(float), axis=0)print(dummy)dummy.plot(kind="bar", stacked=True)pl原创 2017-07-04 20:06:36 · 846 阅读 · 0 评论 -
python入门技巧之特征分析(离散特征(图))
这篇文章的大佬 https://www.kaggle.com/headsortails/pytanic 用到的命令上文中是用表格和图片分析的,只适用于两个特征之间的关系。这篇将以图表形式表示多个特征之间的关系如何查看sns.factorplotsns.barplotmosaic例如sns.barplot(x="Embarked", y="Survived", hue="转载 2017-07-04 20:27:38 · 1349 阅读 · 0 评论 -
数据挖掘算法笔记:knn算法
#前几篇的总结居然格式错误,找时间重新整理。一调包import numpy as npfrom sklearn.neighbors import KNeighborsClassifierknn=KNeighborsClassifier()data = np.array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]]) #打斗和接吻次数原创 2017-07-19 18:27:09 · 387 阅读 · 0 评论 -
七月在线笔记之推荐系统
基本算法:协同过滤,其中包括基于物品的协同过滤和基于用户的协同过滤进阶算法:隐语义模型,word2vec原创 2017-07-27 09:10:46 · 1552 阅读 · 0 评论 -
python入门技巧之特征分析(连续特征(图))
sns.distplot #单一特征分布sns.violinplot #几个特征之间关系例如msurv = train[(train['Survived']==1) & (train['Sex']=="male")]fsurv = train[(train['Survived']==1) & (train['Sex']=="female")]mnosurv = train[(tra转载 2017-07-04 20:43:02 · 1906 阅读 · 0 评论 -
python数据可视化之matplotlib
用matplotlib进行数据可视化探索转载 2017-07-27 10:19:24 · 545 阅读 · 0 评论 -
【keras神经网络】调参指南
一.数据的格式二.激活函数二分类要用sigmoid,不能用softmax,公式如下:三.优化器sgd比adam在收敛阶段效果还好四.BatchNormalization数据量少,把BN去掉,换成归一化?...原创 2018-05-17 15:45:20 · 2163 阅读 · 0 评论 -
python入门技能—文件读取及查看数据
1.读取文件data_train = pd.read_csv("E:/KaggleT/train.csv")2.查看数据 data_train.info()data_train.describe()#查看特征内部的关系。看看男女各有多少人 data_train.Sex.value_counts() #男的比女的多#丢掉没用的列data_train = da原创 2017-07-04 19:59:53 · 513 阅读 · 0 评论