
机器学习
来自火星的攻城狮
数据挖掘、机器学习
展开
-
【无标题】
一种CTR预估中连续特征的Embedding学习框架 - AutoDis 地址:http://www.ai2news.com/blog/36873/ 2021-07-10一口气放出三篇SIGIR论文!详解阿里妈妈搜索广告CTR模型演进 地址:http://www.ai2news.com/blog/36849/ 2021-05-28WSDM’21「蚂蚁」CTR预估:多交互注意力网络 Multi-Interactive Attention Network for Fine-grained Fea原创 2022-02-21 10:31:15 · 1319 阅读 · 1 评论 -
gensim w2v 使用记录
训练模型model = word2vec.Word2Vec(sentences, min_count=1, seed=1, size=100, window=5)保存模型txt 格式为可查看模式,若binary=True,mac本地查看文件会乱码model.save('text8.model') # 保存模型model.wv.save_word2vec_format('token_vec_300.txt', binary=False) # 保存字典获取w2v 字典的key和对应向量voc原创 2022-02-10 09:58:04 · 1150 阅读 · 0 评论 -
机器学习文章记录
样本分布变化-对抗验证:https://zhuanlan.zhihu.com/p/93842847原创 2021-12-20 14:04:17 · 550 阅读 · 0 评论 -
搜推文章整理20211220
美团“猜你喜欢”深度学习排序模型实践:https://zhuanlan.zhihu.com/p/35090791原创 2021-12-20 14:03:38 · 469 阅读 · 0 评论 -
特征相关性
为什么特征相关性非常的重要?器学习模型的好坏取决于你所拥有的数据。这就是为什么数据科学家可以花费数小时对数据进行预处理和清理。他们只选择对结果模型的质量贡献最大的特征。这个过程称为 “特征选择”。特征选择是选择能够使预测变量更加准确的属性,或者剔除那些不相关的、会降低模型精度和质量的属性的过程。数据与特征相关被认为是数据预处理中特征选择阶段的一个重要步骤,尤其是当特征的数据类型是连续的。那么,什么是数据相关性呢?数据相关性:是一种理解数据集中多个变量和属性之间关系的方法。使用相关性,你可以得到一些见解原创 2021-11-23 11:23:41 · 2396 阅读 · 0 评论 -
机器学习特征工程实用技巧大全
常规总结https://zhuanlan.zhihu.com/p/26444240https://zhuanlan.zhihu.com/p/33429338原创 2021-01-06 09:50:28 · 127 阅读 · 0 评论 -
【机器学习】缺失值处理总结
处理缺失值的意义没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。为什么要进行空值处理?系统丢失了大量的有用信息;系统的不确定性更加显著,系统中的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导原创 2020-12-31 10:26:22 · 3352 阅读 · 0 评论 -
python 代码规范教程
https://zh-google-styleguide.readthedocs.io/en/latest/google-python-styleguide/python_style_rules/#id16原创 2020-08-24 17:32:03 · 118 阅读 · 0 评论 -
【机器学习】-数据不平衡-采样
背景所有数据存在DataFrame对象df中。数据分为两类:多数类别和少数类别,数据量相差大。数据预处理已将多数类别的Label标记为1,少数类别的Label标记为0。一、下采样(以少的为标准,抽样逼近)从多数类中随机抽取样本(抽取的样本数量与少数类别样本量一致)从而减少多数类别样本数据,使数据达到平衡的方式。二、上采样(以多的为标准,扩量逼近)和下采样采用同样的原理,通过抽样来增加少数样本的数目,从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样,不断的从少数类别样本数据中抽取样本,然后使原创 2020-07-17 09:18:19 · 873 阅读 · 0 评论 -
特征共线性对模型的影响
一、背景共线性问题是困扰模型预测能力的一个问题。在数据分析面试的时候也经常会出现关于共线性问题的面试考点。二、共线性描述2.1 何为共线性共线性又叫做多重共线性,是指自变量之间存在较强的,甚至完全的线性相关关系。影响:当自变量之间存在共线性时,模型的参数会变得极其不稳定,模型得预测能力会下降。很难确切区分每个自变量对因变量得影响,因此增加了对于模型结果得解释成本。因此,在建模前期得变量得筛选环节,就需要采取有效措施避免共线性问题。但在实际的问题中,自变量之间除了存在共线性问题之外,完全可能存在原创 2020-07-16 09:24:24 · 4140 阅读 · 0 评论 -
pyspark Dataframe 添加新列
如何添加一个新的列到Spark DataFrame(使用PySpark)方法一:不能将任意列添加到Spark中的DataFrame。新列只能使用literal创建。from pyspark.sql.functions import litdf = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))df_with_x4 = df.withColumn("x4", lit(0)原创 2020-05-09 21:48:44 · 578 阅读 · 0 评论 -
如何实现自定义SecureCRT自动登录
https://blog.youkuaiyun.com/qq_25606103/article/details/51265315原创 2019-12-02 17:58:05 · 268 阅读 · 0 评论 -
shell入门教程系列
shell入门教程1:https://www.cnblogs.com/dongying/p/6262935.htmlshell入门教程2:https://www.cnblogs.com/dongying/p/6270972.htmlshell入门教程3:https://www.cnblogs.com/dongying/p/6376131.htmlshell入门教程4:https://...原创 2019-11-28 15:09:24 · 127 阅读 · 0 评论 -
spark与hadoop的区别
http://blog.sina.com.cn/s/blog_6cb1b33c0102y495.html转载 2019-11-28 11:20:57 · 110 阅读 · 0 评论 -
SQL中在查询结果中新增一列自定义的值
select *,cast(‘自定义的值’ as 自定义的字段类型) as ‘列名’ from 表名–简写select *, 自定义的值 as 列名 from 表名select ‘086a’ as tag from xxx原创 2019-11-25 15:24:41 · 2718 阅读 · 0 评论 -
pip 豆瓣
直接在后面添加 -i “https://pypi.doubanio.com/simple/”#例如安装 keraspip install keras变成pip install keras -i “https://pypi.doubanio.com/simple/”原创 2019-11-25 14:22:47 · 294 阅读 · 0 评论 -
机器学习模型评估指标总结
常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标一、分类模型常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种:(1)二分类问题(a)混淆矩阵准确率A:预测正确个数占总数的比例精准率P:正例样本中有多少被预测正确了召回率R:预测的正例样本中有多少是正确的F1 Score(精准率与召回率集成):2P*R/(P+...转载 2019-03-26 19:03:22 · 786 阅读 · 0 评论 -
Jupyter Notebook 添加目录插件(nbextensions)
简单四步即可实现在jupyter notebook中添加目录:step1: 在cmd命令框中运行 pip install jupyter_contrib_nbextensions;step2: 关闭jupyter notebook, 在cmd命令框中运行 jupyter contrib nbextension install --user --skip-running-chec...原创 2019-05-20 17:14:11 · 5546 阅读 · 3 评论 -
三招提升数据不平衡模型的性能(附python代码)
https://yq.aliyun.com/articles/600963?spm=a2c4e.11153940.0.0.23475e30KPh37W原创 2019-07-18 16:41:31 · 223 阅读 · 0 评论 -
Pycharm快捷键设置(鼠标滚动控制字体大小)
https://www.cnblogs.com/luyanru66/p/9677567.html一、pycharm字体放大的设置File —> setting —> Keymap —>在搜寻框中输入:increase —> Increase Font Size(双击) —> 在弹出的对话框中选择Add Mouse Shortcut在弹出的对话框中同时按住ctrl...转载 2019-07-25 10:47:51 · 752 阅读 · 0 评论 -
如何理解相关性系数(pearson、spearman、kendall)
转载: https://www.jianshu.com/p/7697eb89926a三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。person correlation coefficient(皮尔森相关性系数)公式如下:重点...原创 2019-08-29 15:18:33 · 4841 阅读 · 0 评论