- 博客(26)
- 收藏
- 关注
原创 数据产品经理是什么
数据产品数据集成数据管道:提供高效、稳定、标准化分布式数据传输服务接口平台JRM:通过页面轻松完成接口配置、测试、上线、升级等工作、实时监控接口性能及关键指标爬虫系统:互联网数据采集系统,进行数据采集、数据清晰多层次数据处理,支持点击、登陆、翻页等多种模型数据管理工程管理:工程定义为数据管理基本单位,实现成本分摊、资源隔离、数据管理等全链路闭环管理作业中心:可靠、高校、安全的作...
2019-11-19 09:28:15
371
原创 可解释性机器学习
可解释性机器学习背景写这篇文章的背景就是可解释性机器学习在中文领域资料非常少,有一些零散的资料也不成系统,笔者根据这两个月的整理现阶段的一些可解释性的资料,可常用的代码和库,希望为大家尽一份力。Model-Agnostic Methods找到所有模型都通用的检验方法PD & ICEPartial Dependence和ICE通常放置在一起用,原理是对给定instance,固定除...
2019-10-18 10:49:00
5418
1
原创 文本分类方法总结
背景此文是对NLP文本分类文章的个人知识盲点补充。此文总结类,传统文本分类方法,深度学习文本分类,词向量三种方式的常用文本分类方法,并配上足够的代码,是不可夺得的好文。Multi class log loss对数损失函数主要用于对分类器的准确度进行量化。分类器需要提供对输入的所属的每个类别的概率值。L(Y,P(Y∣X))=−logP(Y∣X)=−1N∑i=1N∑j=1Myijlog(p...
2019-08-22 23:28:24
4326
2
原创 神经网络与深度学习
绪论简单来说,人工智能先是以专家编写规则的形式取得了短暂的成功。之后由神经网络对人脑神经网络进行模拟得到了一种计算模型,兴盛了一时之后由于计算机算力限制等原因衰落。机器学习由于其可解释性强,计算量小,等原因占据了主流,特征学习和最终模型预测学习分开进行,但由于数据形式多种多样(文本、视频),深度学习的在原有机器学习基础上,将特征提取也让计算机进行自己选择,准确率更高。机器学习机器学习在早期的...
2019-06-26 07:56:59
632
原创 数据挖掘
数据挖掘一、内置函数二、读写数据三、数据清洗四、机器学习1)训练集划分2)模型选择3)模型评估分类模型回归模型4)欠拟合和过拟合一、内置函数二、读写数据三、数据清洗四、机器学习1)训练集划分# 随机抽取from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = trai...
2019-06-21 08:36:42
418
2
原创 主成分分析
PCA属于无监督学习算法中的一种,使用最广的一种实现方式是通过奇异值分解提取正交矩阵,然后将目标和正交矩阵相乘实现降维。降维后的维度皆由原数据维度组合而来,不从属任何一个原有的维度。降维后的第一个维度原则上等同于使用最小二乘法对数据进行拟合后所得到的线性回归直线的方向,第二个维度是与第一个维度正交且方向最大的方向,第三个、第四个等等同理,直到抽取的第K个维度。PCA的关键作用在于提取特征和剔除噪声...
2019-06-19 23:36:22
129
原创 自然语言处理
NLP一、自然语言处理解释NLP子领域著名工具包文本表达形式二、API实现Jieba(分词、添加自定义词典、关键词提取)PyltpNLTKSpacyGloVeGensim三、代码实现一、自然语言处理解释NLP子领域著名工具包文本表达形式二、API实现Jieba(分词、添加自定义词典、关键词提取)import jieba# 1、分词sentence = "我来到深圳清华大学和香...
2019-06-19 18:22:45
147
原创 深度学习
前言一、深度学习框架Mxnetimport numpy as npimport mxnet as mx # 主模块import d2lzh as d2l # 深度学习附加功能包# X : input# Z : nd.dot(W, X)# y : label# y_h...
2019-06-16 23:04:43
681
原创 损失函数
前言损失函数用来估量模型的预测值与真实值的不一样程度,通常可以用梯度下降算法寻找函数最小值。一、回归L1 LossL=∣y^−y∣L=|\hat{y}-y|L=∣y^−y∣该函数常用与收敛以回归为目的的输出,代表一次线性差值。特点是,输出结果的数学意义在全局相等,且对输出结果偏高偏低的惩罚一致(对离群点低敏感),连续但在近点(∣y^−y∣接近于0|\hat{y}-y|接近于0∣y^...
2019-06-16 17:17:44
561
3
原创 数据结构
参考:https://blog.youkuaiyun.com/weixin_43269174/article/details/90340471https://courses.cs.washington.edu/courses/cse373/14sp/lecture28.pdfhttp://www.cs.bham.ac.uk/~jxb/DSA/dsa.pdf一、数据结构数据结构英文名描...
2019-06-16 13:30:45
156
原创 十大排序算法(python直白)
排序算法总结1. 快速排序2. 冒泡排序3. 插入排序4. 堆排序5. 归并排序6. 选择排序7. 基数排序8. 希尔排序9. 计数排序10. 桶排序总结对常用排序算法进行总结。参考:https://blog.youkuaiyun.com/weixin_43269174/article/details/887143321. 快速排序简称快排,核心思想在于递归。通过抽取数列中任意一个值作为基准(...
2019-06-16 01:00:01
121
原创 机器学习task8
学习打卡内容:阅读《李航统计学习方法》中p55-p58页总结决策树模型结构理解决策树递归思想阅读《李航统计学习》中p58-p63页学习信息增益学习信息增益率阅读《李航统计学习》中p63-65页学习ID3算法优缺点学习C4.5算法优缺点理解C4.5算法在ID3算法上有什么提升学习C4.5算法在连续值上的处理学习决策树如何生成阅读《机器学习实战》中p37-p41页划分数据集...
2019-06-14 11:04:59
189
2
原创 Kaggle数据处理
Brief introductionimport pandas as pdfrom sklearn.model_selection import train_test_split# Read the dataX_full = pd.read_csv('../input/train.csv', index_col='Id')X_test_full = pd.read_csv('../in...
2019-06-12 09:13:01
390
原创 信贷种类
参考: http://baijiahao.baidu.com/s?id=1587099846462440737&wfr=spider&for=pc现金贷12月1日,互联网金融风险专项整治、P2P网贷风险专项整治工作领导小组办公室正式下发《关于规范整顿“现金贷”业务的通知》(以下简称141号文)。141号文称现金贷具有“无场景依托、无指定用途、无客户群体限定、无抵押” 等特...
2019-06-07 00:08:56
417
原创 机器学习task6
参考https://github.com/Starscoder/Machine_LearningHomework/tree/master/Logistic_Regression
2019-06-02 14:59:47
94
原创 李宏毅机器学习4
贝叶斯公式:P(Ai∣B)=P(B∣Ai)P(Ai)∑i=1nP(B∣Ai)P(Ai)P\left(A_{i} | B\right)=\frac{P\left(B | A_{i}\right) P\left(A_{i}\right)}{\sum_{i=1}^{n} P\left(B | A_{i}\right) P\left(A_{i}\right)}P(Ai∣B)=∑i=1nP(B...
2019-05-26 09:39:06
202
原创 OOP python
OOP总结what's OOPClasses in pythonPython Objects(instances)How to define a class in PythonInstance AttributesInstance Methods调整属性Python Object Inheritance参考:https://realpython.com/python3-object-orien...
2019-05-26 09:15:23
173
原创 信用建模字段收集
信用建模字段收集vintage比较放贷质量时,按照账龄的长短同步对比,从而了解同一产品不同时期放款的资产质量情况。当期未还本金/当期应还金额用处: 将不同时期的数据拉到同一时期比较,直观比较不同时期的政策效果。迁移率定义:处于某一逾期阶段的客户转到其它逾期阶段的变化情况。用处:预测不同逾期阶段的未来坏账损失滚动率...
2019-05-26 00:39:46
209
原创 模型评估-分类型模型评判指标
参考:https://blog.youkuaiyun.com/Orange_Spotty_Cat/article/details/80520839Confusion Matrix多用于判断分类器优劣准确率,精确率,召回率,特异度F1 scoreF1 Score =2PRP+R\mathrm{F} 1 \text { Score }=\frac{2 \mathrm{P...
2019-05-22 08:30:43
236
原创 BGD&SGD&ADASGD
#%%import pandas as pdimport numpy as npdef get_train_data(): df = pd.read_csv('./week1/train.csv') df = df[df['observation']=='PM2.5'] df = df.iloc[:,3:] train_x = [] train_y ...
2019-05-20 21:42:55
160
原创 机器学习基本概念解析
机器学习基本概念2 选择模型2.1 Bias & Variance2.2 Model SelectionCross ValidationN-fold Cross Validation3 优化方法SGD MGD代码学习回归模型评价指标2 选择模型评判好模型标准: 略尽量减少误差,误差2.1 Bias & Variance将系列02中的误差拆分为bias何variance。...
2019-05-17 17:35:35
343
原创 Anaconda&VScode&Virtualenv&Jpupyter&Spyder用法总结
Conda常用To create an environment with a specific version of Python:conda create -n myenv python=3.4If you do not want the default packages installed in a particular environment, use the --no-def...
2019-05-16 11:05:08
638
原创 Application of sGS-ADMM to SVM
ADMM 方法介绍Application of sGS-ADMM to SVMSVM model:min12∥w∥2+C⟨e,ξ⟩ s.t. ZTw+βy+ξ≥eξ≥0,y∈R,w∈Rd\min \quad \frac{1}{2}\|w\|^{2}+C\langle e, \xi\rangle\\\text { s.t. } \quad Z^{T} w+\beta ...
2019-05-15 15:59:34
1005
原创 统计学总结
7. Parameter EstimationModel and parametersProperties of good estimatorsUnbiasedness, consistencyUMVUE, efficiencyMLEBayesian Estimationwhy?Prior and PosteriorConjugate distributionLimi...
2019-05-15 14:01:30
1131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人