- 博客(24)
- 收藏
- 关注
原创 一点小想法
1. Formulations假设一个页面上只有两种资源曝光,而总曝光量showTshow_TshowT一定,其中视频资源曝光 showPshow_PshowP,图集资源曝光showIshow_IshowI。假设视频和图集的点击率 ctrPctr_PctrP和ctrIctr_IctrI分别为showPshow_PshowP和showIshow_IshowI的减函数且缓慢下降,i.e. ctrP=f(showP)ctr_P=f(show_P)ctrP=f(showP),ctrI=g(s
2020-12-15 12:09:05
282
2
翻译 对一篇blog的整理 data science within a large engineering system
对博文Crawling the internet: data science within a large engineering system 的整理。文中提到的数据科学家的一些职责(1)数据科学家提供指导,报告见解和趋势;(2)可以在执行层以下向产品经理和工程主管提供指导和洞察,通过度量和A/B实验指导产品特性开发;(3)在软件系统中实现解决方案;(4)通常不只是一次解决问题,而是不...
2019-12-21 16:05:03
248
原创 查缺补漏 --之前没有get到的细节(SQL)
又刷了一遍SQL必知必会,发现一堆细节糙汉本糙木有看见,记在这里啦~数据表中的行从0开始编号,LIMIT n OFFSET m 返回从第 m+1 条数据起的 n 条数据,包括第 m+1 条数据。简化写法:LIMIT m, n。e.g. select * from table_1 limit 2,3 表示取第三、四、五条数据;而select * from table_2 limit 2 of...
2019-12-18 17:14:18
312
1
原创 A/B-TEST--第四辑 -- Tricks
这可能是这一番的最后一辑(学到别的再加),之前的三辑和简介如下:A/B-TEST–第一辑–very beginning AB TEST的基本思路、统计量。A/B-TEST–第二辑 – 一个bug和简单序贯AB TEST(1)固定样本试验结果显著则立即中断试验的问题;(2)简单序贯AB TEST的应用和样本量求解(Python)。A/B-TEST–第三辑 --贝叶斯AB TEST公式...
2019-12-14 17:40:11
296
原创 A/B-TEST--第三辑 --贝叶斯AB TEST公式及代码实现
公式是抄的,代码是编的。贝叶斯 AB TEST取代常见的频率假设检验,利用先验分布(通常假设为Beta分布)和新的样本数据来得出后验分布,进而得出A是否优于B的概率。1. 二元结果(Binary outcomes)1.1 公式适用于转化率等指标在样本间的对比。在一段时间内,采集两样本若干成功及失败观测数据后,样本B将优于样本A的概率为:Pr(pB>pA)=∑i=0SCBB(SCA...
2019-12-13 18:07:49
1681
原创 A/B-TEST--第二辑 -- 一个bug和简单序贯AB TEST
搬运自 Evanmiller.org.1. 结果显著则立即中断试验?Nope.这是一个固定样本试验。假设: 样本量已经固定。正常操作:固定样本量,不中断实验,试验结束后计算结果。Case1Case2Case3Case4200样本不显著不显著显著显著500样本不显著显著不显著显著结论不显著显著不显著显著如果A、B版本无...
2019-12-12 18:24:44
725
原创 A/B-TEST--第一辑--very beginning
enmm…终于搞定了最后一波活儿,阔以开心逃离,顺利毕业啦!搬运了A/B TEST 的几个Tips~Basics基本思路:使用假设检验方法衡量在同一时间段,相似的目标人群对产品不同版本的态度和业务数据差异,为选择最好的版本提供依据。基础-中心极限定理:新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮...
2019-12-12 00:42:59
434
原创 毕设间隙挤出来的时间序列awsl
enmm…写个毕设体的博客纪念下写完毕设~~(初稿)~~ 吧=_+第1章 绪论略。第2章至少有四列:column_name含义dt时间戳type数据标签,如物种的一级类目,eg. 沙雕sub_type数据标签,如物种的二级类目,eg. 在编论文的沙雕amount数量,eg. 在编论文的沙雕头发数量新的改变我们对Markdown编辑器进...
2019-11-16 21:57:44
323
原创 今天爬了51job的数据分析岗嘻嘻
其实就是改了一下上一篇的URL和正则表达式。import urllib.requestimport reimport urllib.parse#获取原码def get_content(page): url ='https://search.51job.com/list/010000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25...
2019-09-14 22:12:16
241
原创 数据分析岗位职责爬取+词频
直接放代码惹,网址是智联招聘的,当前搜索条件是数据分析,可更换搜索条件之后更改url前缀。#https://xiaoyuan.zhaopin.com/full/0/0_0_0_0_0_-1_%E5%B8%82%E5%9C%BA_1_0 市场岗#https://xiaoyuan.zhaopin.com/full/0/0_0_0_0_0_-1_%E6%95%B0%E6%8D%AE%E5%88%86...
2019-09-12 12:18:52
570
原创 HIVE-所学复盘-2 - HQL-数据定义(DDL)
1. 数据库定义、修改、删除HIVE中的数据库本质上为表的一个目录或命名空间,可避免表名冲突。HIVE为每一个数据库创建一个目录,数据库中的表以该目录的子目录形式存储(default数据库除外)。定义数据库CREATE DATABASE [IF NOT EXISTS] database_name( name STRING, salary FLOAT,...
2019-07-27 15:36:56
159
原创 深度学习-3:TensorFlow原生态卷积神经网络+持久化
还是对Mnist数据集的。定义前向传播过程。使用经典的 LeNet-5. 之后将文件命名为 cnn_inference.py,保存到编辑器上方显示的目录下(Spyder)。import tensorflow as tfimage_size=28num_channels=1output_node=10input_node=784output_node=10conv1_deep=...
2019-07-25 12:23:09
187
原创 深度学习-2:TensorFlow 神经网络构建与优化
1. 神经网络解决问题的基本步骤基本步骤列举如下:提取问题中实体的特征向量作为神经网络的输入(特征工程)。定义神经网络的结构,及如何从输入得到输出(前向传播算法)。通过训练数据调整神经网络中参数的取值(反向传播+优化)。利用训练好的神经网络预测未知的数据(在未知数据上使用前向传播算法)。1.1 前向传播算法1.1.1 所需信息神经网络的输入。神经网络的连接结构。每个神经元...
2019-07-22 21:08:56
256
原创 深度学习-1:TensorFlow简介+几个概念+变量
此番为对【TensorFlow实战Google深度学习框架】的学习笔记。从目前的进度来看,该书算是看起来很舒服的一本了,没有收广告费=_=。1. 基本概念1.1 三个定义人工智能:一类广泛存在的问题,旨在通过计算机实现类似人类的智能。机器学习:如果一个程序可以在任务T上,随着经验E的增加,效果P也随之增加,则称这个程序可以从经验中学习。深度学习:一种机器学习方法,能够自动地将简单的特征...
2019-07-20 21:15:06
249
原创 Python-7:几个小Trick
几个小Trick今天上套路,需要自取。如有疑问,可待讨论。1. Jieba 词频统计在如下程序中,bugs1.csv 为源数据,仅有一列,内容为客户评论的文本数据。每一行对应一条评论。输出的wf1.csv 包含三列:前1000个重要的词、词频和有该词出现的总行数。import pandas as pdimport jiebaimport jieba.analyse as anl#以...
2019-06-30 20:46:43
304
原创 Python-6:DataFrame操作 _2
DataFrame操作 _21. DataFrame拼接使用concat函数。函数的调用方式如下(忽略不常用参数)。concat(objs[, axis=0])Tip: 运行 help(pd.concat) 可看见其详细参数定义与示例。各参数与含义如下表。参数含义objs要连接的对象。可用列表 [obj1,obj2,…] 表示。axis沿何轴连接,默认为...
2019-06-23 18:56:13
1027
原创 Python-5:DataFrame操作 _1
DataFrame操作 _11. DataFrame创建从list转换#输入In [1]: import pandas as pd ...: #创建DataFrame ...: a=[1,2,3,4] ...: b=list("abcd") #a,b长度需相等 ...: d=pd.DataFrame(a,b) ...: prin...
2019-06-18 01:13:38
1049
原创 Python-4:条件语句
条件语句1. bool变量关于bool类型布尔值使用常量True 和 False表示。In [38]:str1='qwerty'#取第四个字符
2019-06-08 22:15:06
191
原创 Python-3:字符串操作/for循环
字符串操作/for循环1. 字符串操作关于字符串字符串为可迭代对象,即可视为一个列表。如字符串"abcd"可视为四个元素的列表[a,b,c,d]。In [38]:str1='qwerty'#取第四个字符 ...:str1[3]Out[38]: 'r'单行字符串用 ‘str’ 和 “str” 表示,多行字符串用’’’ str’’'表示。演示如下:In [36]:str1...
2019-06-01 17:17:27
4365
原创 Python-2:文件读取和输出
Python文件读取和输出1. 利用Pandas读取首先,需要:import pandas as pd对于各个文件格式,读取的语句分别如下:.csv示例:读取一个csv文件,将数据存于一个名为name的DataFrame.path="C:/Users/h/Desktop/wordflag.csv"name=pd.read_csv(path,sep=',',encoding='g...
2019-05-25 17:25:46
449
原创 Python-1:安装与配置
Python的安装与配置1. 安装推荐安装Anaconda大礼包,完全免费,且内含Numpy,Pandas,os等常用库,贼拉方便。可以从JD海鸥下载,如果使用个人电脑,则官网为 [https://www.anaconda.com/distribution/],选择相应的操作系统即可。推荐下载3.7版本。安装过程与其他软件没有太大区别。安装完成后在【开始】点开Anaconda,则可看见一个...
2019-05-18 23:19:30
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅