TianCMCC-优快云博客

原创【教程】LLM集成进LangChain工具，并实现本地知识库的问答

LangChain提供了丰富的生态，可以非常方便的封装自己的工具，并接入到LangcChain的生态中，从而实现语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。本文将介绍下如何将本地的大模型服务集成进LangChain工具链中。

2023-07-24 18:11:47 8263

原创【FastAPI】利用FastAPI构建大模型接口服务

利用FastAPI和uvicorn构建本地化部署大语言模型的接口服务，实现大模型与后续应用（如langchain等）的解耦。整个流程分为服务端与客户端。

2023-07-20 17:27:59 8217 4

一. 前言今早发现电脑的磁盘空间莫名其妙的占满了…也不知道是哪个文件占用了大量的内存空间。就随手写了个python，把磁盘空间全部遍历一遍，找到了大量占用磁盘空间的罪魁祸首。😃二. 深度遍历磁盘下所有文件（递归）因为Windows的目录结构采用的是树形结构，所以可以使用深度遍历或广度遍历来遍历所有的文件，这里采用的是递归方法来实现深度遍历：import osdef get_files(path): global lst if not os.path.exists(path):

2022-03-07 13:37:14 1593

原创 Pandas 找出并查看数据中的重复行

dup_row = data.duplicated(subset=['用户编号', '统计日期'])data.insert(0, 'is_dup', dup_row)data[data['is_dup'] == True]

2021-11-27 15:05:38 16587 1

原创大数据分析师实操（构建数据仓库）

1. 开启MySQL服务，(环境中已经安装mysql-community-server，可直接进行操作)操作环境: slave2rpm -aq | grep mysql-community-serverservice mysqld start systemctl status mysqld2. 根据生成初始密码，进入数据库进行操作操作环境: slave2grep "temporary password" /var/log/mysqld.log3. 设置密码安全策略，强度为LOW操作环

2021-10-20 18:07:22 793

原创大数据分析师理论知识解析（Part.1）

一. Apriori算法使用什么指标筛选项目集？A. 交易编号 B. 最小支持度 C. 最小信赖度 D. 购买数量解析： Apriori算法是一种关联规则算法，Apriori算法首先从项目集中找出所有的频繁项集（通过最小支持度筛选），再从频繁项集中找出符合最小置信度的项集，最终便得到有强规则的项集。Apriori算法的介绍二. SQL语言中，删除一个表中的所有数据，但保留表结构的命令？A. DELETE B. DROP C. CLEAR D. REMOVE解析：#

2021-10-18 01:31:15 1664 1

原创大数据分析师实操练习（Hadoop完全分布式集群搭建）

参考自：大数据技能竞赛之hadoop完全分布式集群搭建（三）练习要求：配置Hadoop相关配置文件，并确定master为namenode，slave1和slave2为datanode，格式化hdfs，开启Hadoop完全分布式集群。1. 将对应软件包解压到指定路径/usr/hadoop：在master、slave1、slave2上操作以下三个步骤:创建 /usr/hadoop 目录： mkdir /usr/hadoop切换至hadoop安装包所在目录： cd /usr/package/.

2021-10-16 20:23:19 1959

原创大数据分析师实操练习（集群基础配置）

1. 修改 Hostname#查询当前主机的Hostnamehostname# 修改当前主机的 hostname为masterhostnamectl set-hostname master2. 修改host文件添加IP与主机映射vim /etc/hosts# 添加IP映射172.18.38.192 master172.18.38.193 slave13....

2021-10-16 18:35:39 2896

原创数据建模学习笔记 -- 类别不平衡问题

1. 什么是类别不平衡问题：在很多任务中，正负样本数量通常是不平衡的，例如在欺诈、失效检测等任务中，正样本的数量远远多于负样本的数量。在类别不平衡问题中，我们将数量多的类别称为“大类”，数量少的类别成为“小类”。由于类别不平衡问题的数据集中被大类主导，追求高分类精度是毫无意义的。例如在信用卡欺诈任务中，当类别不平衡度为1000时，即正负样本的比例为 1000 : 1，将所有的样本全部分为正样本即可获得 99.99% 的分类精度，虽然分类精度很高，但是无法检测出任何负样本，显然，这样的模型是毫无意义的。

2020-12-11 14:26:08 3071 1

原创机器学习中的特征分布

一. 什么是特征分布：与样本分布不同，特征分布指的是一个数据集中，某个特征在所有样本上的分布情况。而样本分布指的是在这个数据集中，各个类别样本的分布情况。以鸢尾花（Iris）数据集来举个例子叭：import pandas as pdimport matplotlib.pyplot as pltiris = pd.read_csv('.\iris.csv', usecols=[1, 2, 3, 4, 5])iris.head(5)Sepal LengthSepal WidthPe

2020-11-27 14:32:13 12440 1

原创时间序列预测----(基于多变量深度模型)

1. 什么是多变量时序预测：多变量时间序列预测问题可以被理解为，利用历史时刻的各项数据来预测下一个时刻的目标数据。2. 实验数据集：在本文中，我使用了北京市空气污染历史监测数据集来进行时序预测实验，那么时序预测任务则是利用过去一段时间所记录的温度、气压、风速以及空气污染程度等数据来预测下一时刻的空气污染程度。数据集下载地址：http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data数据来源自位于北京的美国大使馆在2010年至2014年共5

2020-11-16 11:55:51 19512 14

原创 Ubuntu下安装Nvidia-Docker

一. 安装Nvidia驱动（若已安装则略过）：参考自：https://blog.youkuaiyun.com/chekongfu/article/details/90758638关闭Secure Boot：在开机进入BIOS界面中关闭Secure Boot禁用nouveau，否则会引起冲突问题，导致无法安装Nvidia驱动：# 编辑文件blacklist.confsudo vim /etc/modprobe.d/blacklist.conf# 进入编辑模式在最后插入以下内容：blacklist n

2020-11-03 16:18:20 2413 1

Tian_CMCC