
笔记
小金子的夏天
不深思则不能造于道。不深思而得者,其得易失。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python读写hbase
#!/usr/bin/env python-- coding:utf-8 --import hashlib,timefrom thrift.transport.TSocket import TSocketfrom thrift.transport.TTransport import TBufferedTransportfrom thrift.protocol import TBinaryProtocolfrom hbase import Hbaseimport threadingfrom h原创 2020-05-25 12:08:53 · 791 阅读 · 0 评论 -
es批量增删查
#!/usr/bin/env python-- coding:utf-8 --from elasticsearch.helpers import bulkfrom elasticsearch.helpers import scanimport logging,arrow,timefrom elasticsearch import Elasticsearchclass DealCeleryData():def init(self, es, c_index, m_index):self.es =原创 2020-05-25 12:03:05 · 448 阅读 · 0 评论 -
更改git远程连接http方式为ssh
Git中push时出现错误fatal: The remote end hung up unexpectedly更改https上传方式为ssh(自行百度)ssh -T git@github.**.com.cn #测试是否可以ssh联通 git remote -v #查看远程镜像仓库链接方式 git remote rm /x星 #删除git remote set-url origin git@github.xxx.com.cn:xxxt.gitgit push 提交...原创 2020-05-25 11:40:38 · 4407 阅读 · 0 评论 -
逐行处理下载文件stream=True与iter_lines()
data5 = {“key’:key,}print(“data5:”,data5) s = requests.session() r5 = s.get(url=try_download_url, params=data5,allow_redirects=False) print(“r5 positionfile:”,r5.headers[“positionfile”])location_url= r5.headers[“positionfile”]r6 = s.get(location_url,s原创 2020-05-25 11:37:51 · 1633 阅读 · 0 评论 -
XGBoost与GBDT比较
XGBoost与GBDT有什么不同 除了算法上与传统的GBDT有一些不同外,XGBoost还在工程实现上做了大量的优化。总的来说,两者之间的区别和联系可以总结成以下几个方面。GBDT是机器学习算法,XGBoost是该算法的工程实现。 在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模 型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。 GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代 价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。 传统的GBDT采用CA原创 2020-05-25 11:29:55 · 1380 阅读 · 0 评论 -
docker composecommand执行多条命令
转自别人:command: /bin/bash -c " while true; do sleep 1; done"使用dockr-compose command执行多条指令,有的时候在项目中需要使用目前知道的有以下两种方式方式一:version: ‘2’services:prj1:build:context: .dockerfile: Dockerfile.prj1environment:SERVER_LISTEN_URI: “tcp://0.0.0.0:9000”#执行多条指令原创 2020-05-19 07:52:54 · 4632 阅读 · 1 评论 -
风控模型面试问题
本文转自他人作者:Summer Memories个人公众号:风控汪的数据分析之路知乎专栏:小鑫的数据分析笔记Q:互联网金融场景下的的风控模型种类?获客阶段:用户响应模型,风险预筛选模型。授信阶段:申请评分模型,反欺诈模型,风险定价模型,收益评分模型。贷后阶段:行为评分模型,交易欺诈模型,客户流失模型。催收阶段:早期催收模型,晚期催收模型。Q:简单描述一下风控建模的流程?前期准备...原创 2020-04-20 22:05:19 · 3206 阅读 · 0 评论 -
单变量分析、组合变量分析
单变量分析、组合变量分析单变量分析1.协方差的一些解释: 在坐标轴中,使用x_u、y_u画两条直线,会使数据分布在四个象限 当s_xy为正时,表示变量x、y是正的线性关系,即x增加,y增加 当s_xy为负时,表示变量x、y为负的线性关系,即x增加,y减小 当s_xy=0时,表示数据均匀的分布在四个象限中,两个变量基本没有相关性2.皮尔逊基相关系数的一些解释: 如果变量x、y存在完全的线性关系...原创 2020-04-20 21:23:16 · 4948 阅读 · 0 评论 -
KeyDB与redis
转自公众号:数据分析与开发KeyDB项目是从redis fork出来的分支。众所周知redis是一个单线程的kv内存存储系统,而KeyDB在100%兼容redis API的情况下将redis改造成多线程。上次也跟大家说了,redis多线程正式版将在今年底发布,大家拭目以待线程模型KeyDB将redis原来的主线程拆分成了主线程和worker线程。每个worker线程都是io线程,负责监听端...原创 2020-04-14 15:22:54 · 863 阅读 · 0 评论 -
es索引创建
U2FsdGVkX18BIhdf2YkQ4HWZNWADXcIZj5yz/bC5pMzTNkdZjv3f9WoqJkund/MZ4+m/Ssq0X7HDijbQ/zxpX0lDBKDiZEutOTzKonqXtnEiXskVxJOFMt5A8EXrvzJ+JDDZCl+3yxxB7HJ/iBOAQ7waxBzpWiaAW5ku5rce8bul58m4Tv0ghSpPBM6KvnhZwy6xBwDg...原创 2020-04-07 18:21:06 · 25726 阅读 · 0 评论 -
联邦学习
联邦学习原文链接:https://blog.youkuaiyun.com/cao812755156/java/article/details/89598410 联邦学习简介 联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出, 原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和 ...原创 2020-04-07 18:19:55 · 1212 阅读 · 0 评论 -
对redis单线程的理解
redisredis单线程指的是网络请求模块使用了一个线程(所以不需考虑并发安全性),即一个线程处理所有网络请求,其他模块仍用了多个线程。 redis 核心就是如果我的数据全都在内存里,我单线程的去操作 就是效率最高的,为什么呢, 因为多线程的本质就是 CPU 模拟出来多个线程的情况,这种模拟出来的情况就有一个代价,就是上下文的切换, 对于一个内存的系统来说,它没有上下文的切换就是效率最高的。 ...原创 2020-04-07 18:19:10 · 719 阅读 · 0 评论 -
kafka知识点
kafka知识点原文链接:https://blog.youkuaiyun.com/qq_29186199/java/article/details/80827085 1. Kafka 中的术语 broker:中间的kafka cluster,存储消息,是由多个server组成的集群。 topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。 每个topic又可以拆分成多...原创 2020-04-07 18:18:30 · 220 阅读 · 0 评论 -
python操作Kafka
python操作kafka参考: https://www.cnblogs.com/hei12138/p/7805475.html https://blog.youkuaiyun.com/zt3032/article/details/78756293 https://kafka-python.readthedocs.io/en/master/index.html https://blog.youkuaiyun.com/l...原创 2020-04-07 18:13:34 · 1065 阅读 · 0 评论 -
机器学习模型评价方法
机器学习模型评价方法回归和分类模型的评价指标 回归模型的几个评价指标: 对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程: SSE(误差平方和):The sum of squares due to error R-square(决定系数):Coefficient of determination Adjusted R-s...原创 2020-04-07 18:10:46 · 437 阅读 · 0 评论 -
特征衍生
摘自知乎专栏大数据风控 ,作者正阳特征衍生在实际业务中,通常我们只拥有几个到几十个不等的基础变量,而多数变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量)。而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到一定的帮助作用。所以我们需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。特...原创 2020-03-31 12:11:30 · 2990 阅读 · 0 评论 -
selenium+phantomjs+xpath用法
from selenium import webdriver #导入python版的selenium(webdriver) import time from selenium.webdriver.common.desired_capabilities import DesiredCapabilities print(“time:”,time.strftime(’%Y-%m-%d %H:%M:%S’...原创 2020-03-30 11:56:38 · 350 阅读 · 0 评论 -
聚类算法比较
k-means、dbscan、孤立森林、 K-Means 聚类算法有很多种(几十种),K-Means是聚类算法中的最常用的一种,算法最大的特点是简单,好理解,运算速度快, 但是只能应用于连续型的数据,并且一定要在聚类前需要手工指定要分成几类,初始质心的选择也是一个问题。 K-means算法的过程: 1.首先输入k的值,即我们希望将数据集经过聚类得到k个分组。 2.从数据集中随机选择k个数据点作为初...原创 2020-03-30 11:49:13 · 1703 阅读 · 0 评论 -
SVM简述
SVM 原理SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型):当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;...原创 2020-03-30 11:30:17 · 1551 阅读 · 0 评论 -
C卡催收评分卡
转自公众号:天天学风控1、定义:C卡(Collection scorecard)催收评分卡:在帐户管理期,对逾期帐户预测催收策略反应的概率,从而采取相应的催收措施。2、业务阶段:C卡适用于贷后环节,根据用户当前还款状态为逾期的情况下,预测未来还款的可能性。3、数据使用:A卡申请评分卡一般可做贷款0-1年的信用分析,B卡行为评分卡一般为3-5年,催收评分卡则对数据要求更大,需加入催收后客户反应...原创 2020-03-26 21:22:27 · 4501 阅读 · 0 评论 -
xgboost与gbdt区别
在理解XGBOOST时,需要借助GBDT的理解,并对两者进行对比,这样的方法更有效率。XGBOOST与GBDT第一个区别:牛顿法GBDT 在函数空间中利用梯度下降法进行优化XGBoost 在函数空间中用牛顿法进行优化XGBOOST与GBDT的第二个区别:正则项上面对GBDT中的分析可以知道它是没有正则项的,在XGBOOST中加入了正则项,但是正则项也不是XGBOOST首先加入的,并不是开...原创 2020-03-26 21:17:57 · 3788 阅读 · 0 评论 -
信贷b卡(行为评分卡)
1、定义:B卡即行为评分(Behavior Scoring),主要目的为监控放款后的风险变化。2、业务阶段:B卡适用于贷中环节,根据用户放贷后的行为表现,预测未来逾期风险。已经放出贷款以后,根据贷款人的消费习惯,还款情况等一些信用特征,就是跟踪客户合同开始后的表现,来预估用户逾期或者是违约概率。3、数据使用:B卡行为评分卡则是在申请人有了贷款还款行为后,有相当的数据基础后进行的分析,一般为3-...原创 2020-03-24 22:25:12 · 4854 阅读 · 0 评论 -
RNN与LSTM区别
RNN与LSTM的区别。首先,对于基本RNN来说,它能够处理一定的短期依赖,但无法处理长期依赖问题。比如句子The cat, which already ate …, was full.和句子The cats, which already ate …, were full.,两句话的差别在于主语和谓语动词的单复数,由于句子比较长,RNN就无法处理这种问题。那么RNN为什么无法处理这种问题呢?因为...原创 2020-03-23 19:43:34 · 4558 阅读 · 0 评论 -
风控建模相关面试问题(转自七月算法)
下面的问题转自七月算法,因为他们只给出了问题 没有给出全部答案,所以我这边备注一下,然后针对每个题自己做一些,会持续更新答案。01基础篇(数据结构、代码能力、逻辑思维)(1) 用代码实现快排,说一下快排主要快在哪?(2) 二分查找的时间复杂度(O(logn),最坏O(n)),时间复杂度,空间复杂度怎么计算的(3) 编写二分查找算法(4) 1-19个数字随意相加等于20的情况全部列出来,...原创 2020-03-22 12:52:16 · 2417 阅读 · 0 评论 -
SVM知识点
SVM 原理SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型):当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;...原创 2020-03-19 13:34:15 · 338 阅读 · 0 评论 -
ID3、C4.5、CART算法
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。ID3:用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题。C4.5:信息增益率 = 信息增益和特征熵的比值CART分类树算法:使用...原创 2020-03-18 09:12:51 · 383 阅读 · 0 评论 -
逻辑回归与SVM的比较
逻辑回归和SVM的异同点相同点:第一,LR和SVM都是分类算法。第二,如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。第三,LR和SVM都是监督学习算法。第四,LR和SVM都是判别模型。判别模型会生成一个表示P(Y|X)的判别函数(或预测模型),而生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。简单来说,在计算判别模型时,不会计算...原创 2020-03-17 12:33:16 · 1835 阅读 · 0 评论 -
神经网络、DNN、RNN、CNN的简单比较
神经网络技术,当时叫感知机(perceptron),包含有输入层、输出层和一个隐藏层。输入的特征向量通过隐藏层变换到达输出层,由输出层得到分类结果。但早期的单层感知机存在一个严重的问题——它对稍微复杂一些的函数都无能为力(如异或操作)。直到上世纪八十年代才被Hition、Rumelhart等人发明的多层感知机克服,就是具有多层隐藏层的感知机。 多层感知机可以摆脱早期离散传输函数的束缚,使用...原创 2020-03-12 08:04:57 · 1662 阅读 · 0 评论 -
DNN、前向传播、CNN
深度神经网络(DNN)模型、前向传播算法、卷积神经网络(CNN)感知机模型是一个有若干输入和一个输出的模型,只能用于二元分类,且无法学习比较复杂的非线性模型,因此在工业界无法使用。神经网络则在感知机的模型上做了扩展,总结下主要有三点:1)加入了隐藏层,隐藏层可以有多层,增强模型的表达能力2)输出层的神经元也可以不止一个输出,可以有多个输出,这样模型可以灵活的应用于分类回归,以及其他的机...原创 2020-03-11 15:51:15 · 797 阅读 · 0 评论 -
隐马尔科夫的三个问题
HMM模型相关的算法主要分为三类,分别解决三种问题:1)知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的都是哪种骰子(隐含状态链)。这个问题呢,在语音识别领域呢,叫做解码问题。这个问题其实有两种解法,会给出两个不同的答案。每个答案都对,只不过这些答案的意义不一样。第一种解法求最大似然状态路径,说通俗点呢,就是我求一串骰子序列,...原创 2020-03-11 09:21:43 · 551 阅读 · 0 评论 -
信贷风控系统中常见的子系统
其实现在的各种风控、审批系统真正发挥作用的部分是,各大数据提供商,比如 安居客(通过房屋信息判断可以贷多少钱)、各种地图app(用来寻求这个人的日常行为轨迹是不是正常工作的人、去的地方是不是高消费或者危险的地方)、腾讯有个天御还是啥来着(也是一种数据风控)。还有其他的人行征信、公安就不说了,不过他们都有一个很重要的地方就是,用户个人隐私问题,一般不会提供这个人的隐私信息,而会提供对他的评分。下...原创 2020-03-09 16:54:04 · 2659 阅读 · 0 评论 -
神经网络激活函数的作用
原文链接:https://mp.weixin.qq.com/s/u3FE3gvNPkkU9sL1Cqx0xw在原文的基础上加了自己的注释,给自己看的,原文如果还在,去看原文呦神经网络激励函数的作用是什么?一个单层的感知机, 也是我们最常用的神经网络组成单元啦. 用它可以划出一条线, 把平面分割开,那么很容易地我们就会想用多个感知机来进行组合, 获得更强的分类能力, 这是没问题的。可以发现,...原创 2020-03-08 08:50:10 · 704 阅读 · 0 评论 -
tf-idf、textrank、lda主题文档模型代码示例
#!/usr/bin/env python-- coding:utf-8 --import pandas as pd“”"基于 TF-IDF 算法的关键词抽取¶import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本...原创 2020-02-26 19:07:44 · 805 阅读 · 0 评论 -
词云示例python
s s原创 2020-02-26 11:39:34 · 492 阅读 · 0 评论 -
搜索引擎、PageRank、TextRank、LDA文档主题模型
1.搜索引擎基础思路1.构建一个庞大的资料库2.建立索引,用于指向具体的资料3.进行搜索时,通过关键字匹配的方法,找出关键字对应的索引4.通过索引找到对应的资料,比如某些资料中出现关键字的频率高,就把这些资料返回(这种方法是最基本的思路,体会思想即可,现在没有这么做的)针对上面的思路会有Term Spam攻击,如想让网页出现在搜索结果前面,在html的hiv中加入2000个page...原创 2020-02-25 10:02:13 · 1172 阅读 · 0 评论 -
habase实现手机号对应md5彩虹板
#!/usr/bin/env python-- coding:utf-8 --import hashlib,timefrom thrift.transport.TSocket import TSocketfrom thrift.transport.TTransport import TBufferedTransportfrom thrift.protocol import TBinary...原创 2020-01-17 18:43:25 · 668 阅读 · 0 评论 -
etl工具比较
参考链接:《转载:开源ETL工具和商业ETL工具比较(译文)》https://blog.youkuaiyun.com/iteye_19311/article/details/82334793六种 主流ETL 工具的比较 https://www.cnblogs.com/DataPipeline2018/p/11131723.html...原创 2020-01-17 11:39:58 · 534 阅读 · 0 评论 -
etl过程介绍
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。...原创 2020-01-17 11:34:43 · 1576 阅读 · 0 评论 -
ETL简介
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。可以看出,ETL要做三部分工作,数据抽取、数...原创 2020-01-17 11:32:43 · 654 阅读 · 0 评论 -
flink原理简介
一、Flink是什么?Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。二、Flink的优点:(1)同时支持高吞吐、低延迟、高性能; Flink 是目前唯一能...原创 2020-01-16 18:14:06 · 630 阅读 · 0 评论