- 博客(77)
- 资源 (2)
- 收藏
- 关注
原创 DataHub Docker安装 &PostreSQL元数据集成
install docker & docker-compose,包括docker-compose升级。读取 postgresql 元数据。
2022-12-12 18:29:48
702
原创 Jax, Numpy & Scipy
Google开源的Jax据说很厉害,主要是用来解决numpy在GPU上支持度不太友好的开源包(PyTorch,Cupy,Numba等均同此),今天小试一下,确实有优秀的地方测试(仅限很少部分的numpy api,文档中有Scipy的api)Version随机数 & jax替换numpy的点乘jit函数梯度计算Reference官方文档Github...
2021-02-16 18:24:40
994
原创 SQL窗口分析函数
ReferenceHiveHive窗口函数Hive Wiki WindowingAndAnalyticsOracleWindow FunctionAnalytic FunctionsMySQLMySQL窗口函数Window Functions概述代码准备(hive)-- ALTER TABLE order RENAME TO order_infoscreate table order_infos(name varchar(20), order_date d
2021-01-25 15:40:50
250
原创 docker-compose资源限制&docker资源监控
资源限制设置v2:pu_shares,cpu_quota,cpuset, mem_limit,memswap_limit,mem_swappinesdocker-compose.yml version: '2' services: testservice: image: image container_name: container_name ports: - 'ports_out:ports' privileged: T
2020-12-31 11:24:06
4409
原创 模型评估指标
分类:混淆矩阵/列联表二分类:准确率,召回率,AUC(ROC曲线下的面积),logloss(对预测概率的似然估计),accuracy(概率阈值影响该指标),precision(概率阈值影响该指标)TPTPTP:正预测为正(预测正确)TNTNTN:负预测为负(预测正确)FPFPFP:负预测为正FNFNFN:正预测为负预测结果为正的准确率:准确率/PPV=TPTP+FP\text{准确率/PPV} = \frac{TP}{TP + FP}准确率/PPV=TP+FPTP正样本预测的准确率:召回
2020-12-28 14:52:42
325
原创 统计功效(power)
定义 & 描述别名 敏感度(sensitivity)目的:反映一个检验检测出指定大小效应的能力定义在假设检验中, 拒绝原假设后, 接受正确的替换假设的概率假设检验拒绝的漏报率:用同样的检验方法,对样本重采样/重复实验后计算检验值,统计检验值 > 0.05(显著阈值)的占比假设检验的“正确通过率”,1 - 漏报率不犯第二类错误的概率当AB两组差异真的存在时,我们能正确判断的概率计算:1−β=Φ(z−z1−α/2)+Φ(−z−z1−α/2)1 - \beta = \Phi
2020-11-24 11:33:57
9995
原创 keras layers笔记
文章目录base`Layer.get_weights()`:Returns the current weights of the layer`Layer.set_weights(weights)`: Sets the weights of the layer, from Numpy arrays.`Model.get_config()`: config of the layer`Layer.add_loss(losses, **kwargs)`: Add loss tensor(s), potentiall
2020-09-30 16:24:11
3383
原创 建模之常见激活函数(Keras,tf2)
神经网络常见激活函数序号激活函数表达式优点缺点Kerastf21sigmoidy=11+e−x=tanh(x/2)+12y=\frac{1}{1+e^{-x}}=\frac{\text{tanh}(x/2)+1}{2}y=1+e−x1=2tanh(x/2)+1属于(0,1)(0, 1)(0,1),即指定区间,又属于累计概率范围指数计算成本不低;梯度弥散&爆炸keras.activations.sigmoidtf.nn.sigmoid2elu.
2020-08-18 22:36:41
603
原创 建模之常见优化器(Keras)
序号优化函数概述场景Keras1SGD训练速度快容易陷于局部最优解keras.optimizers.SGD:可设置动量和nesterov参数sgd2Adagrad(自适应学习率)适用于数据稀疏或者分布不平衡的数据集中收敛速度快keras.optimizers.Adagrad3RMSprop(自适应学习率)修改了AdaGrad的梯度积累为指数加权的移动平均,使得其在非凸设定下效果更好。避免了学习率越来越低的的问题,而且能自适应地调节学习率深度神经网络...
2020-08-18 21:21:01
865
原创 ClickHouse & OLAP
installdocker installconnect by DBeaverconnect error: cannot create driver instance原因:DBeaver下载ClickHouse驱动失败解决方法:增加国内源的maven地址。窗口->首选项->DBeaver->驱动 -> Maven。添加阿里云的maven地址http://maven.aliyun.com/nexus/content/groups/public/,并将其移到最上面,再次下
2020-08-17 17:31:48
929
原创 建模之常见模型评估指标(Keras, Sklearn, R)
相同算法请见建模之常见损失函数序号概况表达式场景kerassklearnR1分类准确率预测正确个数的占比分类keras.metrics.Accuracyaccuracysklearn.metrics.accuracy_scoreAccuracy2二分类准确率同上分类keras.metrics.BinaryAccuracykeras.metrics.binary_accuracybinary_accuracy3多分类准确率同上分类ke
2020-08-16 22:24:43
2512
原创 建模之常见损失函数(Keras, Sklearn, R)
序号概况表达式场景sklearnkerasR1交叉熵H(p,q)=∑x(p(x)×log(1q(x)))=∫xP(x)×log(Q(x))dxH(p, q)=\sum_x(p(x) \times \text{log}(\frac{1}{q(x)})) = \int_x P(x) \times \text{log}(Q(x))\mathrm{d}xH(p,q)=∑x(p(x)×log(q(x)1))=∫xP(x)×log(Q(x))dx−log(p(y∣y^))=−(y...
2020-08-16 13:13:50
1223
原创 PyTorch Documentation
install packagesDocumentation官网GithubPyTorch中文文档ApacheCN
2020-08-08 12:17:58
370
原创 傅里叶分析 & 应用
傅里叶级数:Fourier Serie傅里叶级数针对周期性函数:任意周期函数都可写成三角函数之和公式f(x)=a0×1+∑i=1∞(ai×cos(2×π×iT×x)+bi×sin(2×π×iT×x))=∑k=−∞∞(gk(x))f(x) = a_0 \times 1 + \sum_{i=1}^{\infty}(a_i \times cos(\frac{2 \times \pi \times i}{T} \times x) + b_i \times sin(\frac{2 \times \pi \
2020-08-01 14:36:06
1670
原创 Sklearn之特征工程&建模
特征工程sklearn建模说明特征工程来自于自己的总结,参考了使用sklearn做单机特征工程sklearn来源于网络以上如有侵权,请联系我
2020-07-26 11:03:19
265
原创 Box-Cox变换
定义:一种广义幂变换方法,是统计建模中常用的一种数据变换目的用于连续变量不满足正态分布的情况Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性改善数据的正态性、对称性和方差相等性,但方差齐性的问题不一定会消失,做过之后仍然需要做方差齐性的检验,看是否还需要采用其他方法公式y(λ)={yλ−1λλ≠0ln(y)λ=0y(\lambda) =\begin{cases}\frac{y^{\lambda} - 1}{\lambda} & \lamb..
2020-07-24 11:46:10
3828
原创 msck repair error
error: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask解决方法hive issue有效方案:set hive.msck.path.validation=ignore;
2020-07-01 14:36:24
725
原创 Power BI可视化之透视及可配置联动
透视(行列转换):转换–>逆透视列–>透视其他列透视前透视透视后可视化产业结构产业结构趋势切片器–>年度更多选项–>列表格式–>常规–>方向–>水平各省产业结构趋势切片器增加省份/地区列表堆积面积图呈现产业结构趋势图例:产业类别轴:年度值:金额...
2020-06-28 14:05:04
4503
1
原创 Power BI可视化之参数what-if
前提:数据加载已完成创建模拟参数建模–>新建参数使用模拟参数新增度量值:建模–>新建度量值:折扣后的销售额 = sum(Orders[total_sales]) - sum(Orders[total_sales])*'discount percentage'[discount percentage 值]展示折扣为0折扣为0.1折扣为0.3...
2020-06-24 10:14:56
1196
原创 Power BI数据源之web
获取单个页面数据获取数据–> web -> 基本。url: https://search.jd.com/Search?keyword=手机&wq=1手机&page=&s=51&click=0 在导航器中,通过表的内容来识别目标表,转换数据将目标列进行rename,无用列删除获取多个页面数据...
2020-06-19 13:53:01
1778
2
原创 python并发与并行
并发与并行的区别并发:concurrency。单个cpu+多道技术就可以实现并发并行:parallel:同时运行,只有具备多个cpu才能实现并行使用场景计算密集型多核CPUmultiprocessingJoblibsklearn.externals.joblib分布式parallelCeleryredisrabbitmqdemo testGPU自己写CUDA内核numbacupypycudapyopenclmarsIO密集
2020-06-15 18:28:02
418
原创 Python代码规范与结构
代码规范PEP8pylintGoogle Style Guid其它的一些说明对于config.py,不要在程序中直接import config写死,可通过main函数参数的形式来增加灵活性代码效率编写高质量代码改善 Python 程序的 91 个建议代码结构Python最佳实践指南2018Kenneth Reitz 建议的DemoREADME.rstLICENSEsetup.pyrequirements.txt# 具体模块sample/__init__.py
2020-06-08 17:14:26
437
原创 算法的时间复杂度与空间复杂度
主要材料来源算法的时间与空间复杂度(一看就懂)算法的时间复杂度和空间复杂度时间复杂度概念执行当前算法所消耗的时间(最坏情况的运行时间)推导O阶的方法用常数1取代运行时间中的所有加法常数在修改后的运行次数函数中,只保留最高阶项。如果最高阶项存在且不是1,则去掉该最高阶项系数。得到的最后结果就是O阶常用的时间复杂度所耗费的时间从小到大依次是O(1)<O(logn)<O(n)<O(nlogn)<O(n2)<O(n3)<O(2n)<
2020-06-05 18:34:56
178
原创 Python读取配置文件之python2与python3的区别
python3from configparser import ConfigParserclass ReadIni(object): """ read ini config file """ def __init__(self, config_ini): self.config_info = ConfigParser() self.config_info.read(config_ini) def read_mysql_config(self): ".
2020-06-04 16:11:22
319
原创 python之爬虫
get cookieres = requests.post(url=url, data=data, headers=headers[, allow_redirects=False])cookie = requests.utils.dict_from_cookiejar(res.cookies)302(重定向):请求的url为真实的url,header中的referer为重定向之前的urlSSLroutiness, ssl3_read_bytes, sslv3 alter handshake fa.
2020-06-01 18:11:03
127
原创 python之logger
方法一import logginglogging.basicConfig(level = logging.INFO,format = '%(asctime)s - %(name)s - %(levelname)s - %(message)s')logger = logging.getLogger('my logger')方法二import logging#create loggerlogger = logging.getLogger('my logger')logger.setLevel(.
2020-06-01 18:02:50
182
原创 Python代码审查
pylint官网pycharm pluginsinstallsetting -> Plugins --> pylint install and restart配置基本执行:pylint xx.py输出的几个级别C(Convention):违反了编码风格标准R(Refactor):写得非常糟糕的代码,需要重构W(Warning):E(Error)F:致命错误...
2020-05-30 11:52:50
568
原创 Hive SQL优化
参考文档Hive之——Hive SQL优化常规优化以及执行计划解析基本思想HQL优化,本质是对MR/RDD的优化,可以通过explain hql来查看执行计划常见思路表优化分区(分区多,文件多)静态分区动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,
2020-05-26 16:06:31
307
原创 ssh免密登录设置及FAQ
生成sshkeyssh-keygen -t rsa将 id_rsa.pub 文件复制到ServerB机器的 $HOME/ssh 目录下,并保存为authorized_keysssh-copy-id -i ~/.ssh/id_rsa.pub user_name@ip赋权chmod 644 authorized_keys chmod 700 -R .ssh
2020-05-25 13:15:55
253
原创 神经网络常见激活函数(包含tensorflow2的api)
参考文献来源:一文概览深度学习中的激活函数从ReLU到GELU,一文概览神经网络的激活函数eat_tensorflow2_in_30_dayssigmoidAPI:tf.nn.softmaxSigmoid又叫作 Logistic 激活函数y=11+e−xy = \frac{1}{1 + e^{-x}}y=1+e−x1缺点输出值y不以0为中心exp的计算成本相对来说不低梯度消失:输出接近0或1的神经元,其梯度接近0,故权重不会更新或更新极小,并且,与此类神经元相连的神经元的权重
2020-05-22 17:59:36
542
原创 tensorflow2之数学运算
官方API大部分数学运算:tf.math随机数:tf.random矩阵运算:tf.linalg乘法:tf.matmul(实际上是tf.linalg.matmul),等同于@转置:tf.transpose()生成对角阵:tf.linalg.diag:可定制对角线上一行/下一行等信息获取对角阵元素:tf.linalg.diag_part逆:tf.linalg.inv()求迹:tf.linalg.trace()范数:tf.linalg.norm()行列式:tf.linalg.det()
2020-05-20 17:46:16
2181
原创 tensorflow2之数据管道Dataset
原则数据量不大,直接入内存计算即可数据量过大,无法一次性载入内存,需要分批读入:tf.data的API构建数据输入管道构建numpy: ds = tf.data.Dataset.from_tensor_slices((['train_x'], ['train_y']))pandas:同上df.to_dict('list')generator:def generator(): for features, labels in ds: yield (f
2020-05-20 16:15:47
1232
原创 tensorflow2之维度变换与合并分割
维度变换tf.reshape :改变张量形状a = tf.random.uniform(shape=[1,3,3,2],minval=0,maxval=255,dtype=tf.int32)# 将原tensor reshape为3行6列的tensortf.reshape(a,[3,6])tf.squeeze:减少维度,去掉一维a = tf.random.uniform(shape=[1, 2, 1, 3, 1, 1],minval=-10, maxval=10)tf.squeeze.
2020-05-18 17:55:31
2222
原创 tensorflow2之切片
tf.gather:按axis和indices获取索引对应的tensora = tf.Variable([[1,2,3,4,5], [6,7,8,9,10], [11,12,13,14,15]])idx_a = tf.Variable([0, 2])tf.gather(a, idx_a)# 返回: [[1,2,3,4,5], [11,12,13,14,15]]tf.gather(a, idx_a, axis=1)# 返回: [[1,3], [6,8], [11,13]]tf.ga.
2020-05-18 17:16:06
310
原创 如何构建指标体系--笔记
声明以下内容来源于互联网,算是个人梳理笔记。如有侵权请告知,及时删除以下图片来源于互联网,如有侵权请告知,及时删除参考数据源https://www.jianshu.com/p/7ade451b06c9https://www.jianshu.com/p/47f701e70fe8指标特点业务层面有价值可衡量业务真实情况简单可执行大家共同认可特征结果性指...
2020-04-29 17:18:24
3862
1
原创 实时数据同步
log解析=>数据同步Oracle:oggMySQL:binlog解析SQL查询=>数据同步flume方案flume-ng-sql-source读取数据:DB,file, hdfs…flume写入DB,hdfsflume写入kafka后期再消费实施安装flume[, kafka, zookepper]下载并生成flume-ng-sql-sour...
2020-04-21 14:02:59
1253
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人