自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tian_CMCC

blog

  • 博客(13)
  • 收藏
  • 关注

原创 【教程】LLM集成进LangChain工具,并实现本地知识库的问答

LangChain提供了丰富的生态,可以非常方便的封装自己的工具,并接入到LangcChain的生态中,从而实现语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。本文将介绍下如何将本地的大模型服务集成进LangChain工具链中。

2023-07-24 18:11:47 7550

原创 【FastAPI】利用FastAPI构建大模型接口服务

利用FastAPI和uvicorn构建本地化部署大语言模型的接口服务,实现大模型与后续应用(如langchain等)的解耦。整个流程分为服务端与客户端。

2023-07-20 17:27:59 6632 3

原创 Centos离线安装gcc

记录一下。

2023-05-31 16:17:59 1700 1

原创 Python遍历磁盘找出占用空间最大的文件

一. 前言今早发现电脑的磁盘空间莫名其妙的占满了…也不知道是哪个文件占用了大量的内存空间。就随手写了个python,把磁盘空间全部遍历一遍,找到了大量占用磁盘空间的罪魁祸首。😃二. 深度遍历磁盘下所有文件(递归)因为Windows的目录结构采用的是树形结构,所以可以使用深度遍历或广度遍历来遍历所有的文件,这里采用的是递归方法来实现深度遍历:import osdef get_files(path): global lst if not os.path.exists(path):

2022-03-07 13:37:14 1378

原创 Pandas 找出并查看数据中的重复行

dup_row = data.duplicated(subset=['用户编号', '统计日期'])data.insert(0, 'is_dup', dup_row)data[data['is_dup'] == True]

2021-11-27 15:05:38 16079 1

原创 大数据分析师实操(构建数据仓库)

1. 开启MySQL服务,(环境中已经安装mysql-community-server,可直接进行操作)操作环境: slave2rpm -aq | grep mysql-community-serverservice mysqld start systemctl status mysqld2. 根据生成初始密码,进入数据库进行操作操作环境: slave2grep "temporary password" /var/log/mysqld.log3. 设置密码安全策略, 强度为LOW操作环

2021-10-20 18:07:22 724

原创 大数据分析师理论知识解析(Part.1)

一. Apriori算法使用什么指标筛选项目集?A. 交易编号 B. 最小支持度 C. 最小信赖度 D. 购买数量解析: Apriori算法是一种关联规则算法,Apriori算法首先从项目集中找出所有的频繁项集(通过最小支持度筛选),再从频繁项集中找出符合最小置信度的项集,最终便得到有强规则的项集。Apriori算法的介绍二. SQL语言中,删除一个表中的所有数据,但保留表结构的命令?A. DELETE B. DROP C. CLEAR D. REMOVE解析:#

2021-10-18 01:31:15 1559 1

原创 大数据分析师实操练习(Hadoop完全分布式集群搭建)

参考自:大数据技能竞赛之hadoop完全分布式集群搭建(三)练习要求:配置Hadoop相关配置文件,并确定master为namenode,slave1和slave2为datanode,格式化hdfs,开启Hadoop完全分布式集群。1. 将对应软件包解压到指定路径/usr/hadoop:在master、slave1、slave2上操作以下三个步骤:创建 /usr/hadoop 目录: mkdir /usr/hadoop切换至hadoop安装包所在目录: cd /usr/package/.

2021-10-16 20:23:19 1858

原创 大数据分析师实操练习(集群基础配置)

1. 修改 Hostname#查询当前主机的Hostnamehostname# 修改当前主机的 hostname为masterhostnamectl set-hostname master2. 修改host文件添加IP与主机映射vim /etc/hosts# 添加IP映射172.18.38.192 master172.18.38.193 slave13....

2021-10-16 18:35:39 2796

原创 数据建模学习笔记 -- 类别不平衡问题

1. 什么是类别不平衡问题:在很多任务中,正负样本数量通常是不平衡的,例如在欺诈、失效检测等任务中,正样本的数量远远多于负样本的数量。在类别不平衡问题中,我们将数量多的类别称为“大类”,数量少的类别成为“小类”。由于类别不平衡问题的数据集中被大类主导,追求高分类精度是毫无意义的。例如在信用卡欺诈任务中,当类别不平衡度为1000时,即正负样本的比例为 1000 : 1,将所有的样本全部分为正样本即可获得 99.99% 的分类精度,虽然分类精度很高,但是无法检测出任何负样本,显然,这样的模型是毫无意义的。

2020-12-11 14:26:08 2621 1

原创 机器学习中的特征分布

一. 什么是特征分布:与样本分布不同,特征分布指的是一个数据集中,某个特征在所有样本上的分布情况。而样本分布指的是在这个数据集中,各个类别样本的分布情况。以鸢尾花(Iris)数据集来举个例子叭:import pandas as pdimport matplotlib.pyplot as pltiris = pd.read_csv('.\iris.csv', usecols=[1, 2, 3, 4, 5])iris.head(5)Sepal LengthSepal WidthPe

2020-11-27 14:32:13 11630 1

原创 时间序列预测----(基于多变量深度模型)

1. 什么是多变量时序预测:多变量时间序列预测问题可以被理解为,利用历史时刻的各项数据来预测下一个时刻的目标数据。2. 实验数据集:在本文中,我使用了北京市空气污染历史监测数据集来进行时序预测实验,那么时序预测任务则是利用过去一段时间所记录的温度、气压、风速以及空气污染程度等数据来预测下一时刻的空气污染程度。数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data数据来源自位于北京的美国大使馆在2010年至2014年共5

2020-11-16 11:55:51 17686 14

原创 Ubuntu下安装Nvidia-Docker

一. 安装Nvidia驱动(若已安装则略过):参考自:https://blog.youkuaiyun.com/chekongfu/article/details/90758638关闭Secure Boot:在开机进入BIOS界面中关闭Secure Boot禁用nouveau,否则会引起冲突问题,导致无法安装Nvidia驱动:# 编辑文件blacklist.confsudo vim /etc/modprobe.d/blacklist.conf# 进入编辑模式在最后插入以下内容:blacklist n

2020-11-03 16:18:20 2330 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除