- 博客(41)
- 资源 (1)
- 收藏
- 关注
原创 LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)
(1)DeepSeek蒸馏模型的基模型:Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-(2)使用deepseek-R1的800k SFT数据进行微调,没有经过RL过程。模型蒸馏技术还需要进一步备注。
2025-03-04 17:11:58
370
原创 LLM实践——下载、加载(启动)、微调、量化等
也可以使用git的方式,但是这个方式很慢,而且容易中途出现中断,或者下载的模型文件不完整。下面以lora方式微调为例(可以将bash命令写入.sh文件中,直接运行该文件。1、安装并部署api-for-open-llm;[ 下面这种方式还有具体实践过,待验证 ]3、启动api-for-open-llm;2、根据私有大模型信息修改配置文件;仅为机器性能结果,模型微调的效果。4、openai方式调用。
2024-12-05 17:13:37
994
原创 AI Agent之AutoGen框架部署、测试
workflow是集合了多个智能体的工作流,可以供playground界面创建session的时候选择来完成具体的任务。整体界面如下,每次点击“new model”之后,即使你关闭了(没有保存),界面上也会显示这个大模型……下面是创建Agent的主界面,点击“new Agent”可以创建自己的Agent。整体界面如下图,点击“new skills”按钮可以创建自己的skills。下面是“new model”界面,创建LLM时需要考虑:。)用于后面的交互,创建Agent的时候需要考虑:。
2024-11-22 10:57:44
2795
原创 机器学习中常用的几种距离——欧式、余弦等
(1)二维空间的距离公式(三维空间的在这个基础上类推):A(x,y),B(x,y)两点之间的欧式距离为:(2)n维空间的距离公式A(x,x,…,x)和B(x,x,…,x。
2024-05-14 10:24:23
1572
原创 LLM预备知识——概念、技术基础篇
(1)条件随机场(CRF)设X、Y为随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由*无向图G=(V,E)*表示的马尔科夫随机场,即P(Yv|X,Ywv|X,Yw,w~v)对任意定点v成立,则称条件概率分布P(Y|X)为条件随机场。其中:w~v表示在图G=(V,E)中与顶点v有边连接的所有定点w;w≠v表示除定点v以外的所有顶点;Yv与Yw为顶点v与w对应的随机变量。马尔科夫随机场:具有马尔科夫性的随机场;
2024-01-16 11:28:47
1553
原创 LLM预备知识、工具篇——LLM+LangChain+web UI的架构解析
LLM(fastchat)+Langchain+Gradio/Streamlit各种框架基础点
2023-08-24 17:26:28
10145
原创 samba一般安装(Ubuntu)
samba在线安装与配置或者3、查看samba版本和状态结果:具体更新内容同博客Ubuntu离线安装samba与配置(.tar方式安装)
2022-12-06 15:47:48
2084
原创 知识图谱中“三元组”抽取——Python中模型总结实战(基于TensorFlow2.5)
目录一、pyhanlp二、stanfordnlp三、pyltp一、pyhanlp【基于java的,安装使用前必须先安装java环境】二、stanfordnlp【官方GitHub介绍:https://stanfordnlp.github.io/stanfordnlp/training.html】1、安装:pip 安装 pip install stanfordnlp --proxy 111.666.88.688:8082、简单使用 import stanfordnlp三、pyltp【学习
2022-07-08 10:55:14
14348
9
原创 爬虫实践——selenium、bs4
目录一、浏览器的一般设置二、打开网页并获取网页源码的方式三、HTML解析1、BeautifulSoup2、Selenium的webdriver加入触发动作四、反爬虫操作from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesimport urllib.parseimport urllib.requestfrom bs4 import Bea
2022-06-22 17:05:32
701
1
原创 Python与多进程、多线程——multiprocessing、threading、async/await
1、multiprocessing模块1)使用进程池pool:pool( )类:指定进程池中同时执行的进程数为8,当一个进程执行完毕后,如果还有新进程等待执行,则会将其添加进去。pool.apply_async( ):为非阻塞,即不用等待当前运行的子进程执行完毕(各子进程并行执行,且主进程与子进程之间、各子进程之间都不会互相等待),随时根据系统调度来进行进程切换。pool.apply( ):阻塞型,各子进程需依次执行,主进程会被阻塞直到函数执行结束【多进程执行过程中,子进程出错时,将直接跳出,执
2022-04-21 10:12:37
1609
原创 数据处理日常小技巧——Excel等
一、Excel中的简单数据处理技巧1、转化Excel单元格中文本形式的数字为数值型(单元格左上角有个绿色三角形):问题数据如下:方法一:选中对应列,分列,直接点完成。方法二:选中左上角第一个问题单元格,Ctrl+Shift+end选中所有的单元格,点击左上角(有的时候在右上角)的“黄色叹号”,选中“转换为数字”...
2022-02-21 11:28:13
315
原创 (词/位置)向量训练实战——Word2vector、Glove、Doc2vector、position_embedding
1、基于gensim(版本:3.8.3)的Word2vector进行token2id,方便后续利用word2vector进行embeddingimport pprintimport gensimfrom gensim.models.word2vec import Word2Vecfrom gensim.corpora.dictionary import Dictionarysentense='按我的理解,优化过程的第一步其实就是求梯度。这个过程就是根据输入的损失函数,提取其中的变量,进行梯度下降
2022-01-21 10:01:25
3717
原创 Python3中的异常处理
目录try……exceptassertraise:sys.exit():try……except例子:(有except则程序处理异常后不会终止,否则,遇到异常后仅执行finally就退出程序)注意:在try语句中出发异常之前的语句会执行并生效:assertassert:断言 用来测试表达式,其返回值为假,就会触发异常。raise:该语句之后的代码将不会执行,但是当raise处于try中时,try之后的语句不执行,会执行except中语句。触发raise语句的结果:sys.exi
2021-08-17 11:27:31
1521
原创 pytorch(版本1.9.0+cpu)学习实践
目录一、一些基本操作一、一些基本操作# 随机初始化一个tensorrand_num=torch.rand(2,3) print(rand_num) # tensor([[0.8485, 0.8955, 0.6221],[0.7218, 0.6770, 0.5296]])# 直接使用数据构建一个tensortensor_fromLis=torch.tensor([[2,3],[5,6],[4,4]]) print(tensor_fromLis) # tensor([[2, 3],[5, 6]
2021-07-23 09:58:51
2864
原创 数据库操作(一些元数据存储库)——mongoDB、MySQL、KBase、Neo4j
MongoDB、mysql、Neo4j、postgreSQL-vector操作实践手册
2021-07-16 10:23:05
3385
1
原创 Python中的排列组合
itertools模块1、permutations:排列,考虑顺序>>> from itertools import permutations>>> rc=permutations(['a','b','c'],3)>>> list(rc)[('a', 'b', 'c'), ('a', 'c', 'b'), ('b', 'a', 'c'), ('b', 'c', 'a'), ('c', 'a', 'b'), ('c', 'b', 'a')]2
2021-06-29 11:13:32
320
原创 Python中的参数——位置参数、关键字参数
*argms:位置参数*argms收集所有未匹配的位置参数组成一个tuple对象,局部变量args指向此tuple对象def my_test(*argms): print(argms)if __name__=='__main__': dd=['ab','bc','cb'] my_test(*dd) # *参数用于解包tuple对象的每个元素,作为一个一个的位置参数传入到函数中,结果类似于my_test('ab','bc','cb') my_test(dd) my
2021-06-21 11:06:50
313
原创 linux(Ubuntu)的shell命令实践总结(含conda)
一、crontab命令crond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务 工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。crontab:由于使用者自己也可以设置计划任务,所以, Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令示例:(在crontab文件中添加定时自动关机任务)① 在root账号
2021-05-28 09:15:48
4622
1
原创 scikit-learn与机器学习实践
目录数据集划分特征生成模型训练与测试模型评估模型保存与加载数据集划分from sklearn.model_selection import train_test_split, cross_val_score, cross_validate, KFoldX_train, X_test, y_train, y_test = train_test_split (x, y, train_size, text_size, random_state, stratify, shuffle)'''参数:x:数据集
2021-05-20 11:02:04
306
原创 Python的数据类型str、set、list、dict、tuple、Array、DataFrame等整理
目录杂记排序问题:strSet:ZipListTupledictArray:Dataframe杂记1)iterable类型在切片时,没有越界问题。2)判断数据类型使用:isinstance(code, float) #判断code是否为float类型3)浮点数问题:保留小数点后两位:format(loadedAvg_sheet1, '.2f') #对loadedAvg_sheet1保留小数点后两位排序问题:sorted(agrs1,key=)1)实现通过lis的第三个元素进行升序排序
2021-05-19 11:02:22
2746
原创 Python小模块大功能——typing模块、argparse模块、time模块、文件/路径操作模块
模块typing常用类型int,long,float: 整型,长整形,浮点型bool,str: 布尔型,字符串类型List, Tuple, Dict, Set,Sequence:列表,元组,字典, 集合Iterable,Iterator:可迭代类型,迭代器类型Generator:生成器类型使用示例:from typing import Listdef findMedianSortedArrays( nums1: List[int], nums2: List[int]) -> floa
2021-05-11 10:06:55
1835
1
原创 requests模块的post实战
1、post json数据:添加header、cookie必须在headers中添加 {‘Content-Type’: ‘application/json’}url = 'https://xxxx/xxxxx/Auto' header={'Content-Type': 'application/json'} response = requests.post(url, data=json_str, headers=header)json = response.json()text = respon
2021-04-22 16:58:53
297
原创 tkinter模块生成消息弹窗
tkinter模块 是Python 的标准 GUI 库1)提示框生成包括各种提示框:消息提示框(showinfo())、错误(showerror())、警告(showwarning())等,以消息提示框为例:# Python3import tkinterimport tkinter.messageboxtop = tkinter.Tk()top.withdraw() # ****实现主窗口隐藏(即隐藏带tk标题的空白窗口)top.update() # *********需要update
2021-03-10 15:28:45
2790
1
原创 Python操作SQL中json格式的问题
1、json中的引号必须使用双引号(在mysql中双引号和单引号可以互换,但不可混合使用,需成对出现。)mysql支持存储json格式数据,但是写入时引号必须使用双引号,否则出现下述错误:pymysql.err.OperationalError: (3140, ‘Invalid JSON text: “Missing a name for object member.” at position 1 in value for column ‘reviews_2020_copy1.s_index_tes
2021-02-19 10:08:58
5181
原创 TensorFlow2(版本2.5.0)学习笔记(含keras_bert、W2V)
1、设置CPU/GPU运行环境:指定使用CPU:import tensorflow as tftf.debugging.set_log_device_placement (True) # 设置输出运算所在的设备cpus = tf.config.list_physical_devices ('CPU') # 获取当前设备的 CPU 列表tf.config.set_visible_devices (cpus) # 设置TensorFlow的可见设备范围为cpu2、tf定义变量
2021-02-03 14:20:26
4804
3
原创 模拟windows键盘、鼠标等操作模块:pywin32
以下操作可以模拟对鼠标键盘的一系列顺序操作。1、 将内容复制到剪切板:# 将字符串text复制到剪切板win32clipboard.OpenClipboard()win32clipboard.EmptyClipboard()win32clipboard.SetClipboardText('text')win32clipboard.CloseClipboard()2、 鼠标定位当前页面位置win32api.SetCursorPos([200,370]) #数值[水平位置,垂直位置]3、
2021-01-21 13:39:12
4989
7
原创 爬虫中的“句柄无效”错误和selenium.common.exceptions.ElementClickInterceptedException
1.使用selenium爬虫报错:OSError: [WinError 6] 句柄无效原因:多次爬虫后没有成功关闭chromedriver.exe,导致后台含有多个chromedriver.exe 进程。解决: 爬虫程序结束后使用driver.quit()2.使用selenium爬虫时,find到的元素在click时报错:selenium.common.exceptions.ElementClickInterceptedException具体错误信息:selenium.common.excepti
2020-12-30 17:07:39
936
6
原创 Python 中的 修饰符(@classmethod,@property)
Python类中,@ classmethod 修饰符对应的函数不需要实例化,不需要 self 参数,但第一个参数需要是表示自身类的 cls 参数,以用来调用类的属性,类的方法,实例化对象等。但是在类的其他函数中调用时依然需要用self,如下类:class ToMysql: def __init__(self, sql_host, sql_user, sql_passwd,sql_db_name): self.sql_connect=pymysql.connect(host=sql
2020-12-22 16:32:43
2323
原创 Python环境及模块安装、调用等问题——环境设置、导出、pip安装模块等
使用pip安装Python模块时,出现Fatal error in launcher:问题:解决:使用pip时前面加入python -m pip install model_name如:
2020-12-21 10:00:01
4613
2
2025年3月26下载的llama-factory GitHub源码和数据 适用于博客https://blog.youkuaiyun.com/lucky-chaichai/article/details/1465
2025-03-26
llama-factory 20240506版本,适用于博客《LLM实践-下载、加载(启动)、微调、量化等》中所述的实践
2025-03-24
超详细23年软考笔记(本人于北京已过)
2023-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人