- 博客(13)
- 收藏
- 关注
原创 matplotlib 画折线图
有三组数据,共用x轴。两组量纲相同,使用左侧纵轴刻度,第三组量纲不同,使用右侧Y轴刻度。import numpy as npfrom numpy import genfromtxtimport matplotlib.pyplot as pltf_avg = 'loss_avg.txt'f_los = 'loss_verify.txt'f_err = 'loss_error_verif...
2019-12-18 10:44:28
377
1
原创 数据直方图脚本
#!/usr/bin/python#encoding:utf-8import sys from numpy import genfromtxtimport matplotlib.pyplot as plt nbins = 100file_in = sys.argv[1]file_out = sys.argv[2]data = genfromtxt(file_in)print...
2018-05-23 19:30:09
297
原创 bi-graph with Map-Reduce implementation
formular:Sij=1kρj∑uruirujkλud(tui,tuj)Sij=1kjρ∑uruirujkuλd(tui,tuj) S_{ij} = \frac 1 {k_j^\rho} \sum_u \frac {r_{ui} r_{uj}} {k_u^\lambda} d(t_{ui}, t_{uj}) d(t1,t2)=exp[−(t1−t2)22τ2]d(t1,t2)=exp[...
2018-05-10 15:17:01
218
原创 ctr预估的负采样比率修正公式
p=c1p′−1+cp=c1p′−1+cp = \frac {c}{\frac 1 {p'} -1 +c}c∼(0,1]c∼(0,1]c \sim (0,1]: 负样本采样比例。如果正负样本都采样,采样比分别为c1,c2c1,c2c_1, c_2, 则 c=c2/c1c=c2/c1c = c_2/c_1p′p′p':使用有采样的样本预估的ctrppp:修正ctr(理论真实值)特...
2018-02-07 19:32:53
5689
原创 word2vec 核心简记
word2vec 核心间记Huffman编码: 用词频作为词权重,构造 Huffman 树生成的 Huffman 编码,满足语料库总编码长度的期望最短。(频率高的编码短,频率低的编码长)n-gram: (n-1)阶Markov假设:词概率只与它前面 n-1 个词有关。复杂度 O(Nn)O(N^n)。需要平滑(类似 Bayes) n=1n=1即是 unigram2 Hierarchic
2017-06-24 14:59:46
372
原创 排序比较指标
衡量两个次序的差异的指标1. FitnessF=1Z∑jwjα(|pi−qj|+1)+(1−α)pi" role="presentation">F=1Z∑jwjα(|pi−qj|+1)+(1−α)piF=1Z∑jwjα(|pi−qj|+1)+(1−α)pi F = \frac{1}{Z} \sum_j \frac{w
2015-10-28 12:34:06
1666
原创 FTRL 笔记
这篇笔记主要参考冯杨的五篇博客:在线最优化求解(Online Optimization)。因为对于在线学习方法,稀疏性问题需要特别关注:每次在线学习一个新 instance 的时候,优化方向并不一定是全局最优,不容易产生稀疏解,而简单截断又可能将从全局看不该稀疏掉的特征变为零。所以这里以 L1 正则为基础,比较几种在线学习算法。0,预备每个 instance 由特征向量和预测目标组成: (x,y)(
2015-10-28 12:05:50
820
原创 Logistic Regression
一、说明一个最常见的分类算法.mm: 训练集个数nn: 特征个数 训练集: {(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}\{(\mathbf x^{(1)}, y^{(1)}), ..., (\mathbf x^{(i)}, y^{(i)}), ..., (\mathbf x^{(m)}, y^{(m)})\}.x(i)∈Rn, y(i)
2015-10-28 11:53:48
274
原创 RankNet
RankNetRankNet 论文的笔记。原文: Learning to rank using gradient descent.
2015-09-29 00:20:24
802
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人