
机器学习
文章平均质量分 50
我是京城小白
这个作者很懒,什么都没留下…
展开
-
增量训练lightgbm模型,深度学习模型
增量训练lightgbm模型,深度学习模型原创 2022-11-25 16:46:53 · 2255 阅读 · 1 评论 -
机器学习-正样本加权
机器学习-正样本加权原创 2022-11-25 00:27:09 · 814 阅读 · 0 评论 -
面试手撕KNN算法
直接上代码# 参考# https://zhuanlan.zhihu.com/p/59755939# https://zhuanlan.zhihu.com/p/165130369from collections import Counterfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitimport numpy as npiris = datasets.load_iris()原创 2022-04-20 11:52:44 · 1195 阅读 · 0 评论 -
面试手撕kmeans算法
# 直接上代码import randomdef main(data_path, k): # 加载数据 input_list = input_data(data_path) # 初始化聚簇中心 center_list = random_center(input_list, k) # kmeans算法,终止条件为 start中心与end中心一致 result = kmeans(input_list, center_list, k) .原创 2022-04-19 20:35:50 · 1155 阅读 · 0 评论 -
图解AUC和GAUC
转自:图解AUC和GAUC - 知乎网上看过不少关于AUC和GAUC的材料,但是都是文字描述,一点也不直观, 因此萌生了使用图解的方式详细剖析一下AUC和GAUC的想法,也希望以此能帮助大家快速理解概念。其中,说到AUC就不得不提ROC曲线,因此这里分三个部分来解读:ROC、AUC、GAUC。一、ROC前身:通用的对分类模型的评价步骤1:给定样本如图A:其中绿色为正样本,红色为负样本;步骤2:训练一个机器学习模型,然后用这个模型对每个样本计算得到一个预测概率,这个概率值在[0, 1]范围原创 2022-04-14 15:45:12 · 1315 阅读 · 0 评论 -
向量搜索的简明数学基础
转自:https://zhuanlan.zhihu.com/p/88117781原创 2021-08-05 17:30:04 · 143 阅读 · 0 评论 -
推导余弦距离和欧式距离的关系
摘自:https://blog.youkuaiyun.com/moreaction_/article/details/106335586原创 2021-01-08 20:47:03 · 507 阅读 · 0 评论 -
sklearn概述
sklearn有6类:分类(Classification)回归(Regression)聚类(Clustering)降维(Dimensionality Reduction)模型选择(Model Selection)预处理(Preprocession)原创 2020-12-06 16:42:33 · 140 阅读 · 0 评论 -
python - matplotlib
你要的都在这里:官网链接:https://matplotlib.org/gallery/index.html原创 2020-11-28 14:12:44 · 210 阅读 · 0 评论 -
Keras的imdb和MNIST数据集无法下载问题解决
keras框架为我们提供了一些常用的内置数据集。比如,图像识别领域的手写识别MNIST数据集、文本分类领域的电影影评imdb数据集等等。数据地址:链接: https://pan.baidu.com/s/138a6cbP_Pn-dQNIxaio0aw 提取码: sxih...原创 2020-11-25 23:25:21 · 237 阅读 · 0 评论 -
xgboost pipeline
记录:from sklearn2pmml.pipeline import PMMLPipelineother_params = {'learning_rate': 0.1, 'seed': 0, 'gamma': 0.05, 'n_estimators': 15, 'min_child_weight': 1.4, 'colsample_bytree': 0.7, 'max_depth': 2, 'subsample': 0.8, .原创 2020-07-30 10:46:40 · 526 阅读 · 0 评论 -
GBDT算法实践
下面对GBDT做简单的实现。(1)加载需要的python模块import pandas as pdimport numpy as npimport pydotplusfrom sklearn.ensemble import GradientBoostingClassifierfrom sklearn import metricsfrom sklearn.externals.six import StringIOfrom sklearn import tree(2)数据..原创 2020-07-24 00:45:19 · 384 阅读 · 0 评论 -
决策树算法
下面用个实际例子测试一下决策树算法。from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pdimport graphviz# 1. datawine = load_wine()wine_df = pd.concat([pd.DataFrame(wine.data), pd.Da原创 2020-07-08 14:06:03 · 235 阅读 · 0 评论 -
如何解释召回率与精确率?
定义精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中原创 2020-07-02 20:10:32 · 477 阅读 · 0 评论 -
朴素贝叶斯算法实现垃圾邮件分类
下面使用朴素贝叶斯模型,对邮件进行分类,识别邮件是不是垃圾邮件。import numpy as npfrom sklearn.metrics import accuracy_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import MultinomialNB# 预处理数据def text_parse(big_string): token_list = big_s原创 2020-06-14 13:35:45 · 5958 阅读 · 3 评论 -
深入解读Airbnb推荐算法
前年Airbnb——爱彼迎公布了他们的房源推荐算法,并且成为2018年kdd的最佳论文,论文标题 Real-time Personalization using Embeddings for Search Ranking at Airbnb(https://www.kdd.org/kdd2018/accepted-papers/view/real-time-personalization-usin...原创 2020-04-15 11:57:31 · 534 阅读 · 0 评论 -
从0到1实现 Word2vec 算法
前段时间,在直播行业做数据分析的朋友想应用算法提高业务指标:点击率和观看时长,问我有没有容易上手且有效的算法。这个必须有,安排。本文做的主要工作是根据用户的历史点击行为,预测用户(user)接下来对哪些直播视频(item)感兴趣,即做到个性化推荐。本文采用Word2vec算法,该算法通过user行为来理解内容。它基于短时间内被浏览的 item 具有内在相似性的假设来学习 item 的emb...原创 2020-04-12 13:36:53 · 266 阅读 · 0 评论 -
商品推荐-画像和统计类特征工程
商品端特征(画像特征+统计特征):序号 字段名称 中文描述 字段类型 1 sku_id 商品ID string 2 brand_id 品牌ID string 3 shop_id 店铺ID string 4 sku_name 商品名 string 5 first_cate_id ...原创 2020-09-11 20:32:39 · 606 阅读 · 0 评论 -
cbow 与 skip-gram的比较
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDesent方法,不断的去调整周围词的向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量进行了...原创 2020-04-01 15:51:22 · 7310 阅读 · 0 评论 -
Python 技术篇-邮件写入html代码,邮件发送表格,邮件发送超链接,邮件发送网络图片
参考:https://blog.youkuaiyun.com/qq_38161040/article/details/88583998import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerhtml_text = '''<table border=1><tr>&...转载 2019-06-14 23:31:47 · 851 阅读 · 0 评论 -
xgboost 产生新特征,plot_tree
# coding: utf-8# https://blog.youkuaiyun.com/zhangf666/article/details/70183788# https://blog.youkuaiyun.com/bryan__/article/details/51769118from sklearn.model_selection import train_test_splitfrom pandas im...原创 2018-06-25 14:19:02 · 3306 阅读 · 0 评论 -
pandas 使用apply同时处理两列数据的方法
多的不说,请看代码~df = pd.DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)})def my_test(a, b): return a + bdf['Value'] = df.apply(lambda row: my_test(row...原创 2018-06-01 15:19:15 · 4025 阅读 · 2 评论 -
随机森林的优缺点
优点1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好; 2、它能够处理很高维度的数据,并且不用做特征选择,因为特征子集是随机选择的; 3、在训练完后,它能够得出特征重要性; 4、在创建随机森林的时候,对generlization error使用的是无偏估计,模型泛化能力强; 5、随机森林有oob,不需要单独换分交叉验证集; 6、训练时树与树之间是相互独立的,训练速度快,容易转载 2017-11-23 15:57:51 · 9491 阅读 · 0 评论 -
One-Hot Encoding
机器学习 数据预处理之独热编码(One-Hot Encoding)问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "us转载 2017-02-12 18:54:05 · 271 阅读 · 0 评论