自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 查找专用网站IP

【代码】查找专用网站IP。

2024-05-03 18:50:43 231

原创 AttributeError: partially initialized module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘

笔者遇到该问题的场景是在尝试使用conda create来创建环境。遇到标题中的问题可以尝试使用如下解决方案来进行解决。

2024-03-10 17:34:30 396

原创 conda 解决“libstdc++.so.6: version `GLIBCXX_3.4.20‘ not found“

使用cmake的时候需要调用libstdc++.so.6里的GLIBCXX_3.4.20,但是报错使用strings命令查看libstdc++.so.6里面是否包含GLIBCXX_3.4.20,发现没有,最高到3.4.19版本。需要更新libstdc++.so.6,到更高的版本。

2024-03-09 20:31:01 1789

原创 Cron表达式

一年中的几月:可以用0-11 或用字符串 “JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV and DEC” 表示。每周:数字1-7(1 = 星期日),或用字符口串“SUN, MON, TUE, WED, THU, FRI and SAT”月中的几号 :可以用数字1-31 中的任一一个值,但要注意一些特别的月份。“L”字符:用在日表示一个月中的最后一天,用在周表示该月最后一个星期X。)和其它值,比如数字,都是给该字段指明特定的值,而星号(

2024-01-12 11:28:31 508

原创 ssh远程使用jupyter notebook

浏览器输入:http://127.0.0.1:7777。输入设置的密码即可登录。

2023-11-22 19:45:01 855

原创 python json包

当前大语言模型比较火热,很多数据是以json格式进行数据传递的。python包中的json包就是一个处理Json格式数专业包。本文主要介绍这个包中的四个函数,dump,dumps,load,loads。

2023-11-05 17:20:59 397

原创 git push超过100MB大文件失败(remote: fatal: pack exceeds maximum allowed size)

将本地 http.postBuffer 数值调整到GitHub服务对应的单次上传大小配置。push代码的时候,有时会出现如下问题。

2023-11-02 10:01:28 1332

原创 大模型之Chat Markup Language

CML 可以描述对话中的各种元素,例如对话的开始和结束、用户和 AI 助手的发言、对话中的问题和回答等等。因为我们的模型是基于用户的话语进行训练的,只被训练去预测 AI 助手说话的部分(在模型推理时,只需要根据用户的话回答用户)。在笔者应用大模型的场景中,对话模型(即大模型-chat系列)通常具有比较重要的地位,我们通常基于与大模型进行对话来获取我们希望理解的知识。一种简单对话数据的构建格式是,单纯的把系统信息和角色信息插入到每一个训练样本中,然后在对话用"序列结尾"的token(如)分隔开。

2023-10-22 12:56:25 1727

原创 git学习

【代码】git学习。

2023-10-09 17:25:41 503

原创 jupyter环境配置

【代码】jupyter环境配置。

2023-10-02 11:36:38 158

原创 深度学习中,什么是batch-size?如何设置?

batch_size

2023-08-31 09:17:40 4286

原创 CNN预测波士顿房价

CNN@

2023-08-25 10:23:38 357

原创 Linux中解压超过4G的zip文件

在linux中解压超过4G的zip文件,系统会报错。针对这个问题可以安装p7zip来解决,注意实际安装时应该指定p7zip-full。

2023-08-01 15:10:19 590

原创 深度学习的 batch,batch_size,Epoch,Iteration

不同Epoch的训练,其实用的是同一个训练集的数据。第1个Epoch和第10个Epoch虽然用的都是训练集的图片,但是对模型的权重更新值却是完全不同的。因为不同Epoch的模型处于代价函数空间上的不同位置,模型的训练代越靠后,越接近谷底,其代价越小。mnist 数据集有张图片作为训练数据,张图片作为测试数据。每个 Epoch 具有的 Iteration 个数:(完成一个Batch训练,相当于参数迭代一次)每个 Epoch 要训练的图片数量:(训练集上的所有图像)

2023-07-25 11:48:17 102

原创 一些LLM的知识

为了消除这一影响,Prompt Tuning技术应运而生,P-Tuning V1将自然语言提示的token,替换为可训练的嵌入,同时利用LSTM进行Reparamerization加速训练,并引入少量自然语言提示的锚字符(anchor)进一步提升效果。预训练是做自回归,即随机地把文本的某些单次通过mask遮挡起来,通过文本的上下文来预测被遮挡的词是什么,本质上是无监督学习,不需要人工贴标签,所以可以收集海量的数据进行预训练。在大型语言模型中,"token"是指文本中的一个最小单位。

2023-07-23 20:55:21 1237

原创 LLAMA模型部署与一些关键定义

这个有很长的路要走,当前先不讲了,后面开一个专题讲讲。

2023-07-20 21:27:02 482

原创 和大模型相关的一些术语

大语言模型(Large Language Model,LLM)是针对语言的大模型。微调:(FineTuning)针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,得到准确度更高的模型,或者更好的泛化。175B、60B、540B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。指令微调:(Instruction FineTuning),针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。

2023-07-10 09:00:56 1502

原创 git 常用命令

git init: 初始化一个新的 Git 仓库git add: 将文件添加到 Git 仓库中git commit: 将修改保存到 Git 仓库中git status: 查看文件状态git push: 将本地仓库的修改推送到远程仓库git pull: 将远程仓库的修改拉取到本地仓库git clone: 克隆一个远程仓库到本地git branch: 查看本地分支或创建新分支git checkout: 切换分支、恢复文件或修改 commitgit merge: 合并当前分支和指定分支git

2023-05-30 08:54:53 77

原创 如何在阿里云上构建一个flask应用

现在,您的Flask应用程序应该已经在ECS服务器上运行,并且可以在浏览器中使用服务器的公共IP地址或域名访问该应用程序。在阿里云上购买一台ECS服务器。

2023-05-21 20:20:44 135

原创 CentOS机器上安装Git 2.32.2

如果Git成功安装,则会显示Git的版本号信息。

2023-05-18 19:12:32 311

原创 python代码规范

python代码规范

2023-05-16 11:10:44 423

原创 使用CNN构建一个二分类预测模型

CNN做二分类预测

2023-05-16 11:02:03 1009

原创 使用docker部署一个简单的flask应用

这个Dockerfile使用了官方的Python 3.7镜像做基础镜像,将应用代码文件复制到容器中的。首先,你需要编写你的flask应用代码。是将容器内的5000端口映射到主机的5000端口(也可以使用其他端口),为了能够在容器中正确安装应用所需的Python依赖库,需要创建一个名为。,应该能看到“Hello, World!目录,并在容器中运行Python解释器运行。是你自己命名的Docker镜像名称。是你自己命名的Docker镜像名称。在代码所在的目录下创建一个名为。现在你可以在浏览器中访问。

2023-05-16 10:17:00 1049

原创 centos虚拟机可以ping到IP地址但ping不到ip:端口

centos虚拟机可以ping到IP地址但ping不到ip:端口。第四步:确认一下8081是否已经添加到可以被访问的端口。第二步:如果没有,则加到防火墙,此处端口号为8081。第一步:查看防火墙允许被访问的端口。第五步:ping ip:8081。

2023-05-15 11:32:09 1886

原创 利用Q-learning预测波士顿房价

Q-learning预测波士顿房价

2023-05-14 17:53:50 177

原创 CNN建模Demo

CNN建模Demo

2023-05-14 17:29:07 154

原创 Pyspark一个完整建模流程Demo

spark树模型Demo

2023-05-14 17:21:15 440

原创 特征加工方法之RFM

RFM模型是指根据最近购买时间(Recency)、购买频率(Frequency)和购买金额(Monetary)等指标对顾客进行分类的一种营销分析模型。RFM群体为"333":最近购买较旧且购买频率和金额都不高的顾客,需要加强促销、提供个性化推荐等手段来留住这部分客户。RFM群体为"311":最近购买虽然不太新,但购买频率和金额都很高的顾客,应该推送商品组合或打包促销等奖励。RFM群体为"111":最近购买、购买频率和购买金额都很高的顾客,应该推送高价值商品或优惠券等奖励。

2023-05-14 17:07:52 263

原创 利用flask构建一个大屏数据看板Demo

flask,大屏数据

2023-05-13 18:00:04 442

原创 GBDT建模

以下案例中使用了GradientBoostingRegressor方法进行GBDT建模,并使用了GridSearchCV方法进行模型参数的调优,以获得最优的模型拟合效果。预测结果:使用测试集对模型进行测试,使用已训练的模型预测测试数据中的目标变量,并计算模型的性能指标,例如准确率、精度、召回率等。模型调优:如果模型的性能不如预期,可以尝试对模型的参数进行调整,重新训练和测试模型。训练模型:使用训练集对模型进行训练,模型会根据训练数据对每个树进行参数优化,使得模型能够更准确地预测目标变量。

2023-05-13 17:49:45 391

原创 XGBoost

这里我们用到了Pandas和Scikit-Learn库来读取和处理数据,以及XGBoost库来建模和预测。这个示例展示了如何对分类变量进行数值编码,如何将标签变量转换为0和1,以及如何使用XGBoost库来建立分类器并进行预测。XGBoost (eXtreme Gradient Boosting)是一种机器学习库,可以用来进行分类、回归和排序等任务。它是一种基于树模型的方法,具有高效性和可伸缩性,并且在大规模数据和高维度特征时表现良好。下面是一个使用Python中的XGBoost库建模的简单示例。

2023-05-13 17:42:28 75

原创 XGBoost

这里我们用到了Pandas和Scikit-Learn库来读取和处理数据,以及XGBoost库来建模和预测。这个示例展示了如何对分类变量进行数值编码,如何将标签变量转换为0和1,以及如何使用XGBoost库来建立分类器并进行预测。XGBoost (eXtreme Gradient Boosting)是一种机器学习库,可以用来进行分类、回归和排序等任务。它是一种基于树模型的方法,具有高效性和可伸缩性,并且在大规模数据和高维度特征时表现良好。下面是一个使用Python中的XGBoost库建模的简单示例。

2023-05-13 17:41:51 170

原创 建模的一般流程

scikit-learn(简称sklearn)是一个Python中的机器学习库,它提供了丰富的机器学习算法和工具,包括分类、回归、聚类、降维、模型选择、数据预处理等模块。使用测试集数据对训练好的模型进行评估,对比预测结果与实际结果之间的误差,常用的评估指标包括准确率、召回率、F1值、ROC曲线等。数据预处理主要包括数据清洗、数据转换、标准化等,例如使用缺失值填充、特征选择、独热编码、标准化等方法对数据进行预处理。使用训练好的模型进行预测,对新的数据进行分类、回归等任务。

2023-05-13 17:35:12 153

原创 Pyspark 时间窗口函数

Pyspark提供了多种时间窗口函数,常用的有滑动窗口函数以及窗口聚合函数。以下是一个滑动时间窗口函数的实现示例:该函数的作用是,对每个用户的小时订单数进行滑动窗口求和。滑动窗口的大小为1小时,每次滑动1小时。这里使用了类进行窗口定义,并使用函数对窗口内的进行求和,结果存储在列中。

2023-05-12 19:18:32 432 1

原创 风险模型 - 变量筛选

风险模型 - 变量筛选模型搭建的一般步骤变量探索覆盖率PSIIVWOE写在前面的话,我们建模,希望建模型做细,尤其风险类模型,切记不要以为将特征库的变量筛选出来直接扔到模型里,训练出来一版模型,发现KS0.5,AUC0.86 ,然后以为牛的不行,其实风险模型有很多坑,等着大家跳进去。我一直觉得模型是主线,风控策略辅助模型进行风险决策,如果模型偏了,造成的损失是批量的。切记将模型做细,做细。...

2019-08-18 20:36:50 3283

原创 风险模型 - 概率校准

概率校准原因在概率模型搭建过程中,由于抽样与正则化的原因,导致模型输出的概率值明显偏离真实的概率值。这时候我们称这些模型直接输出的概率值是定序值,而非定距数值,可比较大小,但其绝对值并无太多含义。那么如何将模型输出的prob校准到真实的逾期概率呢。使得经过校准后的概率变成逾期概率的意义。案例如下表所示,我们利用模型将pred_probpositive_nttlpositive...

2019-08-11 19:00:28 2248

原创 风险模型 - 稳定性指标阈值由来

风险模型 - 稳定性指标阈值由来问题由来当我们得到模型后,会查看训练集与测试集的PSI,实施一段时间以后还会看模型实施这段时间中新模型打分的结果组别分数区间风险建模的人都知道有个指标是PSI,该指标永来衡量模型或变量的稳定性,而稳定与否通常参照如下PSI取值区间稳定与否[0,0.1)稳定性良好[0.1,0.25)稳定性一般,需要...

2019-08-04 22:26:27 2056

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除