饮马长城窟-优快云博客

原创华为昇腾CANN深度学习环境搭建-以搭建VLLM为例

为什么要截取90000，因为如果请求超过vllm的max_len 会报错，所以最好限制一下，不要超过vllm起服务时候的最大长度。下载toolkit和 kernels，我是910b,如果是310请选择对照的版本。安装完了vllm以后呢，torch会被重新装一下，版本可能和你的驱动不搭配。安装完了以后，再安装一下这几个包，推荐使用conda安装。然后vllm-ascend版本和vllm版本要对照。确定vllm和vllm-ascend的对照关系。到这个阶段，驱动安装完了。安装完了以后，测试安装效果。

2025-12-17 09:53:49 342

原创 vllm的v1/chat/completions和v1/completions区别

不待chat当你批量调用的时候，不排队，然后会请求报错。2 使用场景不一样，chat是会话，他会等你执行完，进入下一轮。也就是说批量调用，选用chat/completions的。三个地方的写法不一样，写错了会报错。

2025-12-05 17:06:57 213

原创华为Asend NPU 大模型W8A8量化调优

目前华为显卡上支持的量化方案比较少，只能选取它自己的量化框架msmodelslim进行量化。1 安装msmodelslim下载一个vllm-ascend的docker然后下载msmodelslim的gitee 项目然后开始安装，需要什么pip，就自己离线拷贝进去安装。我们这里使用的是arrch64的cpu。安装好了以后。开始量化校准。在调用Calibrator.run()方法后，构建Calibrator时传入的model会被替换为伪量化模型，可以直接调用进行前向推理，用来测试对话效果。

2025-10-15 17:29:21 856

原创信息抽取实战项目代码

2 批量抽取PDF文件的关键信息。3抽取报价表到excel文件。

2025-08-18 10:57:36 243

原创 NLP数据增强方法及实现-A

Randomword.add_word('小明')Randomword.add_words(['小明','小白','天地良心'])# Similarword，Homophone，RandomDeleteChar 同上。

2025-08-15 16:48:46 1084

原创 NLP文本分类任务-包含对抗和rdop

将UHPFRC破碎回收为再生混凝土骨料的制备方法，深圳大学，本发明公开了一种将UHPFRC破碎回收为再生混凝土骨料的制备方法，包括如下步骤：预处理步骤，将UHPFRC结构破坏成相对小块，再对UHPFRC进行浸润处理；可再分散乳胶粉：6～30份；本发明的施工方法简单，容易操作，能一次成活，减少渗漏带来的危害，提高混凝土结构的安全度，保证结构完整性，延长工程使用寿命，节约工程维修成本，并且节省两侧的钢板止水带，节约能源。基于多个历史历元的瞬时轨道根数，拟合目标卫星的轨道根数随时间变化的曲线，得到目标时间曲线；

2025-08-15 16:10:09 891

原创 PaddleNLP进行Bart文本摘要训练

也可以换成Pegasus,T5模型，本质上是一样的。

2025-08-15 16:00:03 195

原创 swift多卡并行训练微调qwen3-8B

可以考虑使用deepspeed尝试能不能使卡间均匀。ZeRO2将对优化器状态、模型梯度进行分片。ZeRO3在ZeRO2基础上，对模型参数进行分片，更加节约显存，但训练速度更慢。基础环境：docker-ubuntu, nvidia-ciotainer-toolkit。视同device_map同样存在这个情况。多卡的话，卡之间的分配不太均匀。很长，如果换成单卡，爆显存。存在负载不均衡的情况。

2025-08-15 15:47:49 734 1

原创 Vllm+Deepsek+Milvus构建本地向量库

对于嵌入生成，我们将使用mxbai-embed-large，这是一个针对语义相似性优化的 334M 参数模型。对于每个文档，我们只需简单地使用 "#"来分隔文件中的内容，这样就能大致分隔出 markdown 文件中每个主要部分的内容。它将自动添加到保留的 JSON 动态字段中，在高层次上可将其视为普通字段。准备 LLM 和 Embeddings 模型 Ollama 支持基于 LLM 任务和嵌入生成的多种模型，这使得开发检索增强生成（RAG）应用变得非常容易。1 Vllm只能用linux安装。

2025-08-15 15:47:13 318

原创 rlhf强化训练报错1

解决方案：需要指定--deepspeed zero3 或者zero2也可以。

2025-06-17 15:55:03 267

原创 Paddle和pytorch不可以同时引用

OSError: [WinError 127] 找不到指定的程序。

2025-01-30 12:31:59 1234 4

翻译 NLP领域的小样本学习

一般而言，p-tuing效果优于PET范式。但是对于标签特别多，以及蕴含任务需要去理解的时候，p-tuing任务的效果不是很好。蕴含任务就是无法把标签变成完形填空的形式。因为预训练有大量的参数，如果样本非常少，那么训练参数量就会远远高于样本量，造成过拟合！Rdop做的是隐式数据增强，把一句话，变成两个接近的token。通过引入一段话，把分类标签带入到训练样本中，实现完形填空的功能。few-shot: 通过较少的学习样本，实现比较好的识别能力。PET的缺点，写的不同的模板会影响效果。基于PET使用伪模板。

2022-11-08 11:22:34 815

原创 NLP知识笔记一

1 自监督学习 2 自监督词表示学习 3 word2vec 分布式假设：语义相近的句子之间，应该具备相近的空间向量，紧密的关系。 4 句子的编码模型Language Modeling 5 自回归，自训练模型

2022-07-06 15:16:03 317

原创数据埋点梳理

目录介绍:埋点文档介绍:埋点是流量数据采集的一种主要方式, 是分析用户行为的重要手段。本质上可以理解为，一次html动作触发了网络请求, 并被服务端的框架存储下来的行为。按照埋点实现方案分为按照HTML行为触发网络请求的方式可以划分为点击事件：用户每点击页面按钮一次就记录一次数据。曝光事件：当用户成功进入一个页面时记录一次数据，当刷新一次页面也会记录一次数据，如果通过手机HOME键切换出去，则不会记录。页面停留时长：页面停留时长主要用来记录用户在一个页面的停...

2021-10-27 14:53:53 2368 1

原创 KMeans聚类分析实战——如何把城市划分成不同的种类

问题背景:某业务有以下几个考核城市的指标，（如出车率，这里不详细介绍）现在要对全国所有的城市按照上述指标进行分类，比如表现好的，表现差的，那么问题来了，我应该分为几类呢，是分3类还是分7类？谁是好的那一类，谁是差的那一类呢？土豪回答：拍脑袋决定个目标值，都达到就是好的那一类，至于分几类，就好中坏吧！作者说：其实也可以，但是我们还可以使用聚类分析的方式，评估分为几类，以及如何分类更合适。第一步：数据预处理数据集： df(pandas.datafr...

2021-09-13 16:58:28 4991 2

原创 xgboost解决业务问题实践——司机流失预测模型

声明: 文章所引用的数据禁止用于商业用途业务需求描述：某部门今年的核心指标是司机留存率，司机留存是指司机有完单。所以为了提高司机留存，需要预测出下周哪些司机完单量是0 ，从而城市的同学及时干预，促进司机完单，提高司机留存率。所以本需求简述为：给你91万司机，滴滴数据库的数据随便取，但是必须是第N周的数据，请预测第N+1周，哪些司机没有完单量。下面是本次建模的基本流程第一步：确定特征如何司机下周不干了，他这周有什么行动表现吗，或者这周发生了什么...

2021-09-13 16:40:30 1492 5

原创 Python+Flask+ngrok调度刷新echarts数据并部署

①获得公众网络可以访问的网址下载注册ngrok，名字是不是很难记，你rok哥， ngrokhttps://ngrok.com/download这里下载安装然后去这里注册一个你rok哥的账号，我直接用自己的github账号绑定了，我们的目的是要那个token这里https://dashboard.ngrok.com/auth/your-authtoken这是我的token1nnIwp751ucpJXj8WNwjWMPlzyk_**uHNvHCks3ePJfHTruoU② ...

2021-01-31 00:36:01 584 1

原创集成算法与随机森林简介

集成算法的种类：第一种，随机森林模型随机森林的优势：①能够处理很高维度的数据，不用做特征选择。②训练完之后可以给出哪些feature比较重要③容易做成并行化方法，速度较快④可视化展示。第二种： Boosting模型。串行模式从弱学习期开始加强，通过加权来进行训练。典型代表：AdaBoost ,XgboostAda boost会根据前一次的分...

2020-06-17 11:49:42 430

原创 sklearn线性回归及原理介绍

1 一次线性回归误差服从均值为0方差为θ2的高斯分布损失函数，用于定义和衡量模型的误差，实际点到预测平面的垂直距离。如何评价模型？决定系数 R方 ,衡量数据和回归线的贴近程度。r*2=LinearRegression().score(test_x,test_y)1.2代码实现方式import pandas as pdimport numpy...

2020-06-10 15:33:25 1168

原创决策树模型及scikit实现

一基本概念：根节点：第一个选择点叶子节点：最终的决策结果非叶子节点和分支：中间过程熵：来源于化学的概念，随机变量的不大确定性的度量。不确定性越大，熵越大。计算公式比如，一枚硬币投掷一次，正负的概率都是0.5 ，那么熵计算公式：H(x)=-(0.5log2 0.5+0.5log2 0.5)=1.0信息增益：熵减少的量。父节点熵-（子节点的熵的加权平均...

2019-12-02 22:14:09 370 2

原创 Python使用Flask实现文件上传和访问

安装: 在pycharm里面新建一个虚拟环境的工程pip安装(本次安装的版本是0.10.1 python版本是2.7 )如何copy依赖安装包?pip freeze >requirements.txtpip install -r requirements.txt新建文件夹,static ,templates新建一个网站服务:#!/usr/b...

2019-08-25 18:49:15 2737

原创 python 安装impala报错及解决办法

from impala.dbapi import connect执行的时候报connect找不到 ,如果只 pip安装impyla是不行的.https://github.com/cloudera/impyla 官网可以看到依赖的包DependenciesRequired: Python 2.6+ or 3.3+ six, bit_array th...

2019-07-23 17:43:03 13277 2

原创《增长黑客》读书笔记

作者：范冰（以下称作者）本人（以下称我）第一章：增长黑客的崛起Hotmail，第一个基于网页的邮件客户端，之前一直在线下打广告，离目标用户太远，花费巨大。后来在每个用户的邮件后缀打广告，0成本实现了快速的扩张。AARRR模型：获取，激发，留存，增加收入，传播推荐。获取Acquisition 让用户首次接触产品，踏进店门激发活跃 activat...

2019-04-08 21:30:12 3958

原创地图可视化方案优缺点总结

地图可视化实现方式：excel——power map :优点：方便易用,热力图调节比较方便，视频发布缺点：定位不是很准，无法到经纬度，发布的话，线上被封死了。echarts:优点：高度可调，基本上可以按照你想要的样子定制。交互方案多，效果好，适合做大屏缺点：数据吞吐量不大，有开发成本，部分js基于google国内无法访问。没有和数据处理工具集成（pyechart...

2019-03-12 08:57:40 6418 1

原创基于KNN的分类模型-预测美团外卖城市等级

需求介绍美团有自己的城市等级，外卖依据其业务体量，重新划分了外卖的城市等级。这个城市根据其业务情况来划分的，比较详细。现在有以下样本数据。city_name city_level pnum ddl 临汾 D2 ** ** 南京 A ** ** 洛阳 C1 ** ** 无锡 B1 ** ...

2019-03-01 10:15:42 2037

原创 python对用户评价内容进行语义情感分析

使用 QQ 号登陆腾讯云官网 https://www.qcloud.com/，在管理中心，获取的 SecretId 和 SecretKey。背景：用户在点评平台上的评价文本内容，有时候感情色彩和打的分值并不相同，为了更准确的反映用户的感情色彩我们获取文本内容后，通过腾讯的语义分析平台进行感情色彩分析，得到两个分值，positive，negative为后面更深入的感情分析做铺垫。以...

2019-02-25 20:48:01 6225 2

原创基于SAS的主成份分析——某业务增长原因分析

备注: 本文所有数据都是模拟数据, 已经脱敏简介：主成份分析（PCA），把多个指标转化为少数几个综合指标的降维思维。核心思想是把m个相互存在关系的指标变量，转化为彼此独立的一组新的n个指标，一般n<m比如研究儿童发育的指标可能有m个，其中的腿长，胳膊长，身高等指标我们可以汇总成一个新的独立指标x。当x指标出问题的时候，我们可以推断其身体结构的发育遇到了问题，而不是...

2019-02-23 19:42:51 1383

原创 python机器学习scikit-learn线性回归及决策树分类

一安装scikit-learn 依赖numpy,SciPy,mkl 如果包来源不同，有的使用whl，有的使用pip官方安装，会造成执行程序的时候报错，找不到模块。解决办法是，卸载所有的包，统一来源，重新安装。插播一个神奇的网站：http://sklearn.apachecn.org/#/ 二广义线性回归模型2.1 简单的实例-二元一次方程拟合目前有3列数，已知x1...

2019-02-16 21:21:16 1368 2

原创 python绘图工具plotly研究

plotly功能比较全，传统如matplot更多的是面向基础绘图组件的编辑。大部分情况下，我们更在乎的是可视化展现效果，因此plotly这种快速，漂亮，简单的可视化解决方案挺不错。但是呢，plotly也会有比较坑的地方，比如你要注册账户生成apikey,使用前必须写： plotly.tools.set_credentials_file(username='user_name', api_...

2019-02-13 14:37:07 5474 4

原创 python-地图可视化组件folium

folium是python的一个用来绘制地图，并在地图上打点，画圈，做颜色标记的工具类。简单易学，和pandas可以很好的融合，是居家必备良品。一基本功能演示import foliumimport webbrowserm=folium.Map(location=[40.009867,116.485994],zoom_start=10) # 绘制地图，确定聚焦点folium.Mar...

2019-02-11 15:19:03 42467 17

原创 numpy功能手册

numpy

2019-01-26 17:08:42 1972

原创 maplotlib.pyplot学习笔记

参见 online guide:https://matplotlib.org/tutorials/index.html代码解析：import matplotlib.pyplot as pltimport numpy as npx=np.arange(0,10,0.2)y=np.arange(0,10,0.2)plt.figure(1,figsize=(9,3)) #定义画布尺...

2019-01-13 17:57:06 410

原创 scrapy爬虫框架结合BeautifulSoup

①安装scrapy pip install scrapy 依赖的包 python-lxml python-dev libffi-dev

2017-08-10 23:00:15 2885 1

原创 BeautifulSoup初体验

欲学爬虫，scrapy是python的重点，scrapy是框架，核心还是解析html元素，这方面专业的还是BeautifulSoup。这是官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9 多看官方文档，多练习，基本上可以掌握的很清晰！ ①实战案例 1,1配置模拟浏览器from bs

2017-08-03 22:30:47 602

原创 scikit-learn对天气数据进行回归分析

一:实验背景: 结合《python数据分析实战》里面的方法,对山东的十个城市的6月17日的气温进行收集，分析气温和距离海岸线距离（以下简称s）的关系. 用到的库 matplotlib 库画出图像 scikit-learn 库对数据进行回归分析 numpy 库对数据进行切片工具:pycharm 数据:高密,莱阳等十个地区的气温数据,6月17日当天分时段的温度二单城市温度可视化

2017-07-17 21:05:17 3334

原创 pymysql访问mysql数据库并且plotly实现可视化

①python和mysql数据库的交互 MysqlDb和pyMysql,推荐使用后者官方文档:http://pymysql.readthedocs.io/en/latest/user/examples.html pymysqlimport pymysql.cursorsconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',pa

2017-07-12 22:51:18 2804

原创数据仓库C

存储格式文本导入到hive中,必须是TextFile格式. RCFile 存储空间TextFIle

2017-06-07 21:26:54 345 1

原创数据仓库B

HDFS Hadoop Dietribute Filesystem 存储块 block MapReduce Map-combiner-shuffler-reduce YARN介绍 ZoopKeeper 用于故障转移,当资源管理器失败后,另一个可以马上恢复. datanode–读取数据 Hadoop工作过程 HIVE介绍进入hive的操作界

2017-06-03 18:50:46 348

原创数据仓库A

BI 企业大数据服务结构大数据etl技术 Informatica datastage之类的已经不用了,现用大数据的定制化开发. greenPlum之前使用的大数据etl平台 ①SCD问题处理方法并举例 ②ODS是什么,在数据仓库的作用. ：ods是短期的实时的数据，供产品或者运营人员日常使用，而数据仓库是供战略决策使用的数据；ods是可以更新的数据，数据仓库是基本不更新

2017-05-30 12:42:31 884

原创 GIT学习笔记

安装: Mac：https://sourceforge.net/projects/git-osx-installer/ Windows：https://git-for-windows.github.io/ Linux：apt-get install git 验证安装 cmd输入 git即可基础: 切换到当前目录 git status 查看是不是repository –是 O

2017-04-20 22:03:53 280

spark概述教学课件

空空如也