
python
文章平均质量分 54
mtj66
这个作者很懒,什么都没留下…
展开
-
unknown feature type, use i for indicator and q for quantity
这个是在获取feature importance的时候报错,通过排查发现是因为特征名称包含空格,将空格替换掉即可解决。原创 2023-03-01 12:57:39 · 219 阅读 · 0 评论 -
ModuleNotFoundError: No module named ‘aiohttp‘
发现还是版本的兼容性问题,通过指定版本进行安装。在安装openai的时候,会报错。原创 2023-02-27 23:15:44 · 478 阅读 · 0 评论 -
chatgpt如何解决模型训练过程中一些未知错误:以xgboot devices_.IsEmpty为例
用chatGPT提高生产力具体背景如下:在训练模型过程中,为了避免资源抢占,我指定了其他的gpu来提高模型训练效率,但是发现训练的时候模型正常,但是在模型预测的时候一直报错,尝试gpu=1,2,3都报错。原创 2023-02-24 16:53:11 · 3407 阅读 · 0 评论 -
python float和Java float引发的问题
离线特征是python加工出来的,在python中默认也是float类型,java中xgboost相关的api也都是float类型,为啥进行特征比对的时候结果就不一致呢?所以在进行特征&模型结果比对的时候,最好按照这种结论中的形式进行数据精度对齐,保持结果一致。所以float是8个字节是真正的数字,但是float对象是24字节的。1、python中的float是和Java中的double是精度一样的。2、numpy中的float32是和Java中的float是等价的。此外,布尔值是整数的一个子类型。原创 2022-11-17 18:21:39 · 794 阅读 · 0 评论 -
逆地理编码-离线版-part3
本文主要提供,数据加载,以及geo对象类geo_obj.pydata_loader.py原创 2022-07-01 12:47:40 · 1074 阅读 · 1 评论 -
逆地理编码-离线版-part2
工具类:AdminUtils.py GeoUtils.py LineUtils.pyS2Utils.py原创 2022-07-01 12:35:36 · 809 阅读 · 0 评论 -
逆地理编码-离线版-part1
通常为了获取高精度的数据,可以采用百度or高德的逆地理编码接口,但是个人请求量受限,企业版限额会高一些。本文提供一种离线方案,实现经纬转地址信息的方案,精度为乡镇街道粒度,响应速度单核4ms/每条,能满足一般的逆地理编码需求。本文分模块提供如下代码。程序主入口为 getGeoInfo,具体参考如下代码。........................原创 2022-07-01 12:30:07 · 2330 阅读 · 1 评论 -
python多线程并发访问&数据库连接池原理以及代码
在工作中难免会使用数据库,为了能够高效并发访问数据库,数据库连接池必不可少,由于本站copy模式盛行,导致数据库连接池被错误使用,遇到错误甚至追求能跑通就行。本文就数据库链接池的实际使用场景来说明如何应用数据库连接池。在部署机器学习模型时采用的是flask框架,模型预测本身是一个很快的事情,无奈有太多的特征需要通过接口(或者是ots,mysql等)获取,导致响应时效性降低。为了能很好的实现并发性,提升QPS,采用gunicorn进行多进程,异步处理方案。此时单个进程只有一个数据库链接,就会导致异步执行的线程原创 2022-06-28 14:41:51 · 5694 阅读 · 10 评论 -
ABTest效果检验&样本量计算
一、 ABTest显著性检验:1、针对比例型abtest,比如转化率 https://abtestguide.com/calc/2、针对数值型abtest,比如保费均值,参见本文下文 二、 ABTest size1、针对比例型 1)https://abtestguide.com/abtestsize/ 2)https://www.evanmiller.org/ab-testing/sample-size.html 2、数值类计算:需要填写方差1) h...原创 2022-03-22 19:55:34 · 4548 阅读 · 0 评论 -
XGBoost 安装失败最后尝试的一种方法
xgboost 0.4 和 0.6 不兼容 导致需要升级到0.6 。尝试了各种方法安装xgboost, 最简单的 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xgboost最后没办法 直接从https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/ 下载对应的 压原创 2017-12-10 13:10:55 · 2516 阅读 · 0 评论 -
python virtualenv 虚拟环境的配置
# 准备工作1.安装python3apt-get install python32.安装pip3apt-get install python3-pip3.为python3添加包sudo pip3 install packagename# 1. sudo pip3 install virtualenv# 2. 创建python3的虚拟环境virtualenv -p /usr/bin/python3 ...原创 2018-06-12 11:59:26 · 617 阅读 · 0 评论 -
pycharm matplotlib pyplot 绘图时报错qt plugin window
按照别人的说法是Anaconda 4.3.0的问题,更新qtconda install qt或者conda update pyqt但是仍然无济于事查看官方matplotlib 安装尝试更新matplotlib python -mpip install -U pippython -mpip install -U matplotlib 更新matplotlib如果更新过程中有权限问题原创 2017-10-08 18:07:42 · 2264 阅读 · 0 评论 -
python中将Numpy数组保存为图像
第一种方案可以使用scipy.misc,代码如下:import scipy.miscmisc.imsave('out.jpg', image_array)上面的scipy版本会标准化所有图像,以便min(数据)变成黑色,max(数据)变成白色。如果数据应该是精确的灰度级或准确的RGB通道,则解决方案为:import scipy.miscmisc.toimage(image_array, cm...原创 2018-05-03 12:19:53 · 52088 阅读 · 9 评论 -
python高级代码块
# Get number of unique entries in each column with categorical dataobject_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))d = dict(zip(object_cols, object_nunique))# Print number of unique entries by column, in ascending ordersort.原创 2020-08-20 21:11:12 · 1256 阅读 · 0 评论 -
python采用进程池消费队列消息
# 从pdf文件转文本是一个cpu以及io负载都很高的过程# 为了提高文本的转化效率,采用多进程提高转化效率# coding=utf-8import multiprocessingimport timeimport pdfplumberimport osmin_pdf_dir, max_pdf_dir = "2017-01-03", "2017-01-31" # []base...原创 2020-05-07 13:55:05 · 655 阅读 · 0 评论 -
python 如何进行元组排序
python list 可以直接进行sort排序,默认是按照从小到大进行排序.现在有个需求:要按照元组的第一个元素进行升序,但是按照第二个元素进行降序如下是个取巧的办法,这里的100根据数值范围进行调整,思路是选择一个函数,对第一个元素是增函数,第二个元素是减函数# sorted(L)L = [(0, 2), (0, 12), (1 , 66), (1, 88)]L.sort(key=...原创 2020-02-03 09:00:06 · 1697 阅读 · 0 评论 -
pandas如何发现某列有异常值
在做pandas数据处理的时候,总是报错NaN,infinit,null等错误,但是不知是哪一个字段有问题,需要逐一排查这里的isinf是判断是否是无界限的,比如除以0的情况,还有就是isnan判断是否非数值.# np.any(np.isnan(postive_data))# np.all(np.isfinite(postive_data))for col in postiv...原创 2019-07-17 10:03:31 · 1090 阅读 · 0 评论 -
python stock learn
使用scikit-learn进行股票分析:https://blog.youkuaiyun.com/freewebsys/article/details/78973483LSTM对股票的收益进行预测(Keras实现) :https://blog.youkuaiyun.com/asialee_bird/article/details/89372950PythonStock(8):使用优矿web学...原创 2019-09-06 11:43:57 · 369 阅读 · 0 评论 -
legend标注 annotation标注 tick 能见度使用
# coding=utf-8# https://blog.youkuaiyun.com/changzoe/article/details/78841152"""1. legend 标注2. annotation 标注3. tick 能见度"""import numpy as npimport matplotlib as mplimport matplotlib.pyplot as plt...原创 2018-08-16 20:09:02 · 613 阅读 · 0 评论 -
windows远程访问ubuntu下的jupyter notebook必要配置
windows远程访问ubuntu下的jupyter notebook必要配置要点导航0.生成配置文件(一般采用默认) 1.打开ipython, 创建一个密文密码 2.修改默认配置 3.启动jupyter即可 4.在windows采用ip+端口号访问即可 回到导航 0.生成配置文件(一般采用默认)jupyter notebook –generate-config 回到导航 1.打开i转载 2017-12-10 16:30:56 · 579 阅读 · 0 评论 -
pandas 实现sql 多行转多列
posD.head(15)id hour labelPo 0 595941207920 0.0 27 1 595941207920 2.0 19 2 595941207920 4.0 22 3 595941207920 5.0 19 4 595941207920 6.0 2...原创 2019-07-07 22:09:55 · 989 阅读 · 0 评论 -
pandas里的loc并列条件筛选
df.loc[(df['A']=='a') & df['A']=='b') ] # 此处只能用&,用and会报错,此外也要用圆括号括起来 否则会报错原创 2018-12-20 13:17:19 · 17380 阅读 · 1 评论 -
Ubuntu16.04 python3.5 Caffe 安装步骤记录
安装硬件: Intel(R) Core(TM) i7-7700K CPU @ 4.20GHz + NVIDIA Corporation Device 1b06 (rev a1)cuda 9.0 已经安装,下面的cuda步骤可以跳过,后面的OpenCV ,我选择的是3.4.0安装流程细分为如下10个步骤,细化步骤粒度更易避免出错:1、安装依赖包 2、禁用 nouveau 3、配置环境变量 4、下载 ...原创 2018-04-12 10:35:01 · 2035 阅读 · 0 评论 -
dlib window64 py36 whl 安装包下载
无需编译,直接安装whl包省心。https://pypi.python.org/pypi/dlib/19.6.0 下载 dlib-19.6.0-cp36-cp36m-win_amd64.whl 成功安装 dlib 但是import失败 之后尝试 pip install dlib==19.6.1 成功解决https://pypi.python.org/pypi/dlib/19.4.0 ...原创 2018-03-25 14:41:38 · 7012 阅读 · 3 评论 -
windows及linux环境下永久修改pip镜像源的方法
windows环境下修改pip镜像源的方法 mkdir ~/pip vim ~/pip/pip.ini[global] index-url = https://mirrors.aliyun.com/pypi/simple/cat ~/pip/pip.ini linux 修改pip镜像源的方法: 在当前用户的目录下创建.pip文件夹 vim ~/.pip/pip.conf ...原创 2018-03-06 15:36:05 · 2963 阅读 · 0 评论 -
关于 python ImportError: No module named ‘xxx’的问题?
关于 python ImportError: No module named ‘xxx’的问题?网上搜索的方法大概如下,可以依次尝试 .#1. 使用PYTHONPATH环境变量,在这个环境变量中输入相关的路径,不同的路径之间用逗号(英文的!)分开,如果PYTHONPATH 变量还不存在,可以创建它!这里的路径会自动加入到sys.path中,永久存在于sys.path中而且可以在...原创 2018-03-19 11:23:51 · 4424 阅读 · 0 评论 -
window python whl 包安装
window 进行python开发,经常会遇到某些模块找不到, 如果镜像源没有搜索到相关的python 模块,可以考虑直接从 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载相应的 whl包比如 安装OpenCV ,在上面打开的页面搜索 OpenCV,选择相应的模块版本,python版本,以及window系统,进行下载。(py36) E:\迅雷...原创 2018-03-10 16:00:33 · 1493 阅读 · 0 评论 -
Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析
米筐科技(RiceQuant)策略研究报告:Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析江嘉键1 年前 1 概述Barra 结构化风险模型是全球知名的投资组合表现和风险分析工具。最近一段时间,我们米筐科技量化策略研究团队对该模型进行了系统研究,并在米筐科技公司的策略研究平台上进行了实现。接下来一段时间,我们将以系列专题的形式展示我们的研转载 2017-07-03 22:12:00 · 22152 阅读 · 0 评论 -
python 二分求根
#! /usr/bin/pythondef my_sqrt(x=0.01): if x 0: return 0 cnt = 0 if x >1 : m = 0 n = x s = (m + n) / 2.0 while abs(s**2 - x )>= 1e-5:原创 2017-04-23 20:12:06 · 1314 阅读 · 0 评论 -
pip 配置python国内镜像源
1.虽然用easy_install和pip来安装第三方库很方便 它们的原理其实就是从Python的官方源https://pypi.python.org/pypi 下载到本地,然后解包安装。 不过因为某些原因,访问官方的pypi不稳定,很慢甚至有些还时不时的访问不了。2.常见国内镜像源https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs原创 2017-03-06 17:52:41 · 897 阅读 · 0 评论 -
Anaconda使用总结
Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版,最原创 2017-01-21 14:35:36 · 557 阅读 · 0 评论 -
python3 opencv 3.0 捕捉视屏以及照片
import cv2"""下面是从摄像头捕捉实时流并将其写入文件的Python实现。运行程序后 按键Q推出,按键C 进行拍照并保存到当前的路径"""# Create a VideoCapture objectcap = cv2.VideoCapture(0)# Check if camera opened successfullyif not cap.isOpened(): ...原创 2018-05-03 16:33:07 · 665 阅读 · 0 评论 -
ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory解决方案
>>> import tensorflow as tfTraceback (most recent call last): File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module> from tensorf...原创 2018-06-05 17:25:03 · 3532 阅读 · 1 评论 -
python 绘制直方图,并且旋转label标签
ax.set_xticklabels(labels,rotation=120) # 旋转标签,避免标签重叠覆盖label翻转的实现,在输出到页面之前,使用:fig.autofmt_xdate() 或者 ax.set_xticklabels(group_labels, rotation=120) rotation就是翻转的角度 # -*- coding: gbk -*-imp...原创 2018-12-13 20:16:37 · 12456 阅读 · 0 评论 -
pandas 多列判断转换成一列
如果熟悉sql,想要多列转换同时操作还可以试试 pandasql ,直接面向sql编程,缺点是有bug。原创 2018-12-13 14:25:00 · 1238 阅读 · 0 评论 -
sudo easyinstall pip报错 openssl版本问题
curl 'https://bootstrap.pypa.io/get-pip.py' > get-pip.py sudo python get-pip.py sudo easy_install pip原创 2018-10-22 22:44:22 · 306 阅读 · 0 评论 -
使用sklearn做特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。...转载 2018-09-17 11:43:05 · 518 阅读 · 0 评论 -
箱线图概念
箱线图概念 https://blog.youkuaiyun.com/kevinelstri/article/details/52937236 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 计算过程:(1)计算上四分位数(Q3),中位数,下四分位数(Q1) (2)计算上四分位数和下四分位数之间的差值,即四分位数差(I...转载 2018-08-17 10:22:36 · 2996 阅读 · 0 评论 -
Python-matplotlib统计图之箱线图漫谈
https://www.jianshu.com/p/b2f70f867a4a箱线图,又称箱形图(boxplot)或盒式图,不同于一般的折线图、柱状图或饼图等传统图表,只是数据大小、占比、趋势等等的呈现,其包含一些统计学的均值、分位数、极值等等统计量,因此,该图信息量较大,不仅能够分析不同类别数据平均水平差异(需在箱线图中加入均值点),还能揭示数据间离散程度、异常值、分布差异等等。在pyth...转载 2018-08-22 07:58:23 · 2670 阅读 · 0 评论 -
Matplotlib绘图和可视化
Matplotlib绘图和可视化Matplotlib绘图和可视化 matplotlib API 入门 Figure和Subplot 颜色标记和线型 刻度标签和图例 注解以及在Subplot上绘图 将图表保存到文件 matplotlib API 入门绘图是数据分析工作中最重要的任务之一,是探索过程中的一部分。例如帮助我们找出异常值、必要的数据转化、得出有关模...转载 2018-08-14 14:39:43 · 724 阅读 · 0 评论