- 博客(52)
- 资源 (1)
- 收藏
- 关注
原创 华为昇腾CANN深度学习环境搭建-以搭建VLLM为例
为什么要截取90000,因为如果请求超过vllm的max_len 会报错,所以最好限制一下,不要超过vllm起服务时候的最大长度。下载toolkit和 kernels, 我是910b,如果是310请选择对照的版本。安装完了vllm以后呢,torch会被重新装一下,版本可能和你的驱动不搭配。安装完了以后,再安装一下这几个包,推荐使用conda安装。然后vllm-ascend版本和vllm版本要对照。确定vllm和vllm-ascend的对照关系。到这个阶段,驱动安装完了。安装完了以后,测试安装效果。
2025-12-17 09:53:49
228
原创 vllm的v1/chat/completions和v1/completions区别
不待chat当你批量调用的时候,不排队,然后会请求报错。2 使用场景不一样,chat是会话,他会等你执行完,进入下一轮。也就是说批量调用,选用chat/completions的。三个地方的写法不一样,写错了会报错。
2025-12-05 17:06:57
201
原创 华为Asend NPU 大模型W8A8量化调优
目前华为显卡上支持的量化方案比较少,只能选取它自己的量化框架msmodelslim进行量化。1 安装msmodelslim下载一个vllm-ascend的docker然后下载msmodelslim的gitee 项目然后开始安装,需要什么pip,就自己离线拷贝进去安装。我们这里使用的是arrch64的cpu。安装好了以后。开始量化校准。在调用Calibrator.run()方法后,构建Calibrator时传入的model会被替换为伪量化模型,可以直接调用进行前向推理,用来测试对话效果。
2025-10-15 17:29:21
846
原创 NLP数据增强方法及实现-A
Randomword.add_word('小明')Randomword.add_words(['小明','小白','天地良心'])# Similarword,Homophone,RandomDeleteChar 同上。
2025-08-15 16:48:46
1083
原创 NLP文本分类任务-包含对抗和rdop
将UHPFRC破碎回收为再生混凝土骨料的制备方法,深圳大学,本发明公开了一种将UHPFRC破碎回收为再生混凝土骨料的制备方法,包括如下步骤:预处理步骤,将UHPFRC结构破坏成相对小块,再对UHPFRC进行浸润处理;可再分散乳胶粉:6~30份;本发明的施工方法简单,容易操作,能一次成活,减少渗漏带来的危害,提高混凝土结构的安全度,保证结构完整性,延长工程使用寿命,节约工程维修成本,并且节省两侧的钢板止水带,节约能源。基于多个历史历元的瞬时轨道根数,拟合目标卫星的轨道根数随时间变化的曲线,得到目标时间曲线;
2025-08-15 16:10:09
890
原创 swift多卡并行训练微调qwen3-8B
可以考虑使用deepspeed尝试能不能使卡间均匀。ZeRO2将对优化器状态、模型梯度进行分片。ZeRO3在ZeRO2基础上,对模型参数进行分片,更加节约显存,但训练速度更慢。基础环境:docker-ubuntu, nvidia-ciotainer-toolkit。视同device_map同样存在这个情况。多卡的话,卡之间的分配不太均匀。很长,如果换成单卡,爆显存。存在负载不均衡的情况。
2025-08-15 15:47:49
726
1
原创 Vllm+Deepsek+Milvus构建本地向量库
对于嵌入生成,我们将使用mxbai-embed-large,这是一个针对语义相似性优化的 334M 参数模型。对于每个文档,我们只需简单地使用 "#"来分隔文件中的内容,这样就能大致分隔出 markdown 文件中每个主要部分的内容。它将自动添加到保留的 JSON 动态字段中,在高层次上可将其视为普通字段。准备 LLM 和 Embeddings 模型 Ollama 支持基于 LLM 任务和嵌入生成的多种模型,这使得开发检索增强生成(RAG)应用变得非常容易。1 Vllm只能用linux安装。
2025-08-15 15:47:13
317
翻译 NLP领域的小样本学习
一般而言,p-tuing效果优于PET范式。但是对于标签特别多,以及蕴含任务需要去理解的时候,p-tuing任务的效果不是很好。蕴含任务就是无法把标签变成完形填空的形式。因为预训练有大量的参数,如果样本非常少,那么训练参数量就会远远高于样本量,造成过拟合!Rdop做的是隐式数据增强,把一句话,变成两个接近的token。通过引入一段话,把分类标签带入到训练样本中,实现完形填空的功能。few-shot: 通过较少的学习样本,实现比较好的识别能力。PET的缺点,写的不同的模板会影响效果。基于PET使用伪模板。
2022-11-08 11:22:34
812
原创 NLP知识笔记一
1 自监督学习 2 自监督 词表示学习 3 word2vec 分布式假设: 语义相近的句子之间,应该具备相近的空间向量, 紧密的关系。 4 句子的编码模型Language Modeling 5 自回归,自训练模型
2022-07-06 15:16:03
317
原创 数据埋点梳理
目录介绍:埋点文档介绍:埋点是流量数据采集的一种主要方式, 是分析用户行为的重要手段。本质上可以理解为,一次html动作触发了网络请求, 并被服务端的框架存储下来的行为。按照埋点实现方案分为按照HTML行为触发网络请求的方式可以划分为点击事件:用户每点击页面按钮一次就记录一次数据。曝光事件:当用户成功进入一个页面时记录一次数据,当刷新一次页面也会记录一次数据,如果通过手机HOME键切换出去,则不会记录。页面停留时长:页面停留时长主要用来记录用户在一个页面的停...
2021-10-27 14:53:53
2366
1
原创 KMeans聚类分析实战——如何把城市划分成不同的种类
问题背景:某业务有以下几个考核城市的指标, (如出车率,这里不详细介绍)现在要对全国所有的城市按照上述指标进行分类, 比如表现好的,表现差的,那么问题来了,我应该分为几类呢, 是分3类还是分7类?谁是好的那一类, 谁是差的那一类呢?土豪回答: 拍脑袋决定个目标值, 都达到就是好的那一类, 至于分几类,就好中坏吧!作者说: 其实也可以,但是我们还可以使用聚类分析的方式, 评估分为几类,以及如何分类更合适。第一步:数据预处理数据集: df(pandas.datafr...
2021-09-13 16:58:28
4983
2
原创 xgboost解决业务问题实践——司机流失预测模型
声明: 文章所引用的数据禁止用于商业用途业务需求描述:某部门今年的核心指标是司机留存率, 司机留存是指司机有完单 。 所以为了提高司机留存,需要预测出下周哪些司机完单量是0 , 从而城市的同学及时干预,促进司机完单, 提高司机留存率。所以本需求简述为:给你91万司机, 滴滴数据库的数据随便取,但是必须是第N周的数据, 请预测第N+1周,哪些司机没有完单量。下面是本次建模的基本流程第一步:确定特征如何司机下周不干了, 他这周有什么行动表现吗, 或者这周发生了什么...
2021-09-13 16:40:30
1489
5
原创 Python+Flask+ngrok调度刷新echarts数据并部署
①获得公众网络可以访问的网址下载注册ngrok,名字是不是很难记, 你rok哥, ngrokhttps://ngrok.com/download这里下载安装然后去这里注册一个你rok哥的账号,我直接用自己的github账号绑定了,我们的目的是要那个token这里https://dashboard.ngrok.com/auth/your-authtoken这是我的token1nnIwp751ucpJXj8WNwjWMPlzyk_**uHNvHCks3ePJfHTruoU② ...
2021-01-31 00:36:01
583
1
原创 集成算法与随机森林简介
集成算法的种类:第一种,随机森林模型随机森林的优势:①能够处理很高维度的数据,不用做特征选择。②训练完之后可以给出哪些feature比较重要③容易做成并行化方法,速度较快④可视化展示。第二种: Boosting模型。 串行模式从弱学习期开始加强,通过加权来进行训练。典型代表:AdaBoost ,XgboostAda boost会根据前一次的分...
2020-06-17 11:49:42
430
原创 sklearn线性回归及原理介绍
1 一次线性回归误差服从均值为0方差为θ2的高斯分布损失函数,用于定义和衡量模型的误差,实际点到预测平面的垂直距离。如何评价模型?决定系数 R方 ,衡量数据和回归线的贴近程度。r*2=LinearRegression().score(test_x,test_y)1.2代码实现方式import pandas as pdimport numpy...
2020-06-10 15:33:25
1167
原创 决策树模型及scikit实现
一 基本概念:根节点: 第一个选择点叶子节点: 最终的决策结果非叶子节点和分支:中间过程熵:来源于化学的概念,随机变量的不大确定性的度量。不确定性越大,熵越大。计算公式比如,一枚硬币投掷一次,正负的概率都是0.5 ,那么熵计算公式:H(x)=-(0.5log2 0.5+0.5log2 0.5)=1.0信息增益:熵减少的量。父节点熵-(子节点的熵的加权平均...
2019-12-02 22:14:09
368
2
原创 Python使用Flask实现文件上传和访问
安装: 在pycharm里面新建一个虚拟环境的工程pip安装(本次安装的版本 是0.10.1 python版本是2.7 )如何copy依赖安装包?pip freeze >requirements.txtpip install -r requirements.txt新建文件夹,static ,templates新建一个网站服务:#!/usr/b...
2019-08-25 18:49:15
2737
原创 python 安装impala报错及解决办法
from impala.dbapi import connect执行的时候报connect找不到 ,如果只 pip安装impyla是不行的.https://github.com/cloudera/impyla 官网可以看到依赖的包DependenciesRequired: Python 2.6+ or 3.3+ six, bit_array th...
2019-07-23 17:43:03
13274
2
原创 《增长黑客》读书笔记
作者:范冰 (以下称作者 ) 本人(以下称 我)第一章 : 增长黑客的崛起Hotmail,第一个基于网页的邮件客户端,之前一直在线下打广告,离目标用户太远,花费巨大。后来在每个用户的邮件后缀打广告,0成本实现了快速的扩张。AARRR模型:获取,激发,留存,增加收入,传播推荐。获取Acquisition 让用户首次接触产品,踏进店门激发活跃 activat...
2019-04-08 21:30:12
3957
原创 地图可视化方案优缺点总结
地图可视化实现方式:excel——power map :优点 :方便易用,热力图调节比较方便,视频发布缺点:定位不是很准,无法到经纬度,发布的话,线上被封死了。echarts:优点:高度可调,基本上可以按照你想要的样子定制。交互方案多,效果好,适合做大屏缺点:数据吞吐量不大,有开发成本,部分js基于google国内无法访问。没有和数据处理工具集成(pyechart...
2019-03-12 08:57:40
6416
1
原创 基于KNN的分类模型-预测美团外卖城市等级
需求介绍美团有自己的城市等级,外卖依据其业务体量,重新划分了外卖的城市等级。这个城市根据其业务情况来划分的,比较详细。现在有以下样本数据。city_name city_level pnum ddl 临汾 D2 ** ** 南京 A ** ** 洛阳 C1 ** ** 无锡 B1 ** ...
2019-03-01 10:15:42
2034
原创 python对用户评价内容进行语义情感分析
使用 QQ 号登陆腾讯云官网 https://www.qcloud.com/, 在管理中心,获取的 SecretId 和 SecretKey。背景:用户在点评平台上的评价文本内容,有时候感情色彩和打的分值并不相同,为了更准确的反映用户的感情色彩我们获取文本内容后,通过腾讯的语义分析平台进行感情色彩分析,得到两个分值,positive,negative为后面更深入的感情分析做铺垫。以...
2019-02-25 20:48:01
6223
2
原创 基于SAS的主成份分析——某业务增长原因分析
备注: 本文所有数据都是模拟数据, 已经脱敏简介:主成份分析(PCA),把多个指标转化为少数几个综合指标的降维思维。核心思想是把m个相互存在关系的指标变量,转化为彼此独立的一组新的n个指标,一般n<m比如研究儿童发育的指标可能有m个,其中的腿长,胳膊长,身高等指标我们可以汇总成一个新的独立指标x。当x指标出问题的时候,我们可以推断其身体结构的发育遇到了问题,而不是...
2019-02-23 19:42:51
1382
原创 python机器学习scikit-learn线性回归及决策树分类
一 安装scikit-learn 依赖numpy,SciPy,mkl 如果包来源不同,有的使用whl,有的使用pip官方安装,会造成执行程序的时候报错,找不到模块。解决办法是,卸载所有的包,统一来源,重新安装。插播一个神奇的网站:http://sklearn.apachecn.org/#/ 二 广义线性回归模型2.1 简单的实例-二元一次方程拟合目前有3列数,已知x1...
2019-02-16 21:21:16
1366
2
原创 python绘图工具plotly研究
plotly功能比较全,传统如matplot更多的是面向基础绘图组件的编辑。大部分情况下,我们更在乎的是可视化展现效果,因此plotly这种快速,漂亮,简单的可视化解决方案挺不错。但是呢,plotly也会有比较坑的地方,比如你要注册账户生成apikey,使用前必须写: plotly.tools.set_credentials_file(username='user_name', api_...
2019-02-13 14:37:07
5471
4
原创 python-地图可视化组件folium
folium是python的一个用来绘制地图,并在地图上打点,画圈,做颜色标记的工具类。简单易学,和pandas可以很好的融合,是居家必备良品。一 基本功能演示import foliumimport webbrowserm=folium.Map(location=[40.009867,116.485994],zoom_start=10) # 绘制地图,确定聚焦点folium.Mar...
2019-02-11 15:19:03
42460
17
原创 maplotlib.pyplot学习笔记
参见 online guide:https://matplotlib.org/tutorials/index.html代码解析:import matplotlib.pyplot as pltimport numpy as npx=np.arange(0,10,0.2)y=np.arange(0,10,0.2)plt.figure(1,figsize=(9,3)) #定义画布尺...
2019-01-13 17:57:06
409
原创 scrapy爬虫框架结合BeautifulSoup
①安装scrapy pip install scrapy 依赖的包 python-lxml python-dev libffi-dev
2017-08-10 23:00:15
2884
1
原创 BeautifulSoup初体验
欲学爬虫,scrapy是python的重点,scrapy是框架,核心还是解析html元素,这方面专业的还是BeautifulSoup。 这是官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9 多看官方文档,多练习,基本上可以掌握的很清晰! ①实战案例 1,1配置模拟浏览器from bs
2017-08-03 22:30:47
600
原创 scikit-learn对天气数据进行回归分析
一:实验背景: 结合《python数据分析实战》里面的方法,对山东的十个城市的6月17日的气温进行收集,分析气温和距离海岸线距离(以下简称s)的关系. 用到的库 matplotlib 库画出图像 scikit-learn 库对数据进行回归分析 numpy 库对数据进行切片 工具:pycharm 数据:高密,莱阳等十个地区的气温数据,6月17日当天分时段的温度 二 单城市温度可视化
2017-07-17 21:05:17
3330
原创 pymysql访问mysql数据库并且plotly实现可视化
①python和mysql数据库的交互 MysqlDb和pyMysql,推荐使用后者官方文档:http://pymysql.readthedocs.io/en/latest/user/examples.html pymysqlimport pymysql.cursorsconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',pa
2017-07-12 22:51:18
2803
原创 数据仓库B
HDFS Hadoop Dietribute Filesystem 存储块 block MapReduce Map-combiner-shuffler-reduce YARN介绍 ZoopKeeper 用于故障转移,当资源管理器失败后,另一个可以马上恢复. datanode–读取数据 Hadoop工作过程 HIVE介绍 进入hive的操作界
2017-06-03 18:50:46
348
原创 数据仓库A
BI 企业大数据服务结构 大数据etl技术 Informatica datastage之类的已经不用了,现用大数据的定制化开发. greenPlum之前使用的大数据etl平台 ①SCD问题处理方法并举例 ②ODS是什么,在数据仓库的作用. :ods是短期的实时的数据,供产品或者运营人员日常使用,而数据仓库是供战略决策使用的数据;ods是可以更新的数据,数据仓库是基本不更新
2017-05-30 12:42:31
883
原创 GIT学习笔记
安装: Mac:https://sourceforge.net/projects/git-osx-installer/ Windows:https://git-for-windows.github.io/ Linux:apt-get install git 验证安装 cmd输入 git即可 基础: 切换到当前目录 git status 查看是不是repository –是 O
2017-04-20 22:03:53
280
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅