
Server&Program
文章平均质量分 55
服务器或编程相关的技术。
ManonLegrand
I ain't never backin' down (come and step in the plate).
For my city for my town (I'll do whatever it takes).
展开
-
Server - 配置 HuggingFace 工程数据 Transformers-CLI 格式与 Huggingface-CLI 格式的差别
Huggingface-CLI 是强大的命令行工具,简化与 Hugging Face 模型库的交互,通过这个工具,可以搜索、下载和管理各种预训练的自然语言处理模型,支持从模型下载到环境配置的全流程操作,允许用户快速访问 Hugging Face 的模型集合,执行模型转换,能够在命令行中配置和测试模型,有助于在不同项目中集成和应用最新的机器学习技术。原创 2024-10-29 11:24:06 · 428 阅读 · 0 评论 -
Python - 开源库 ReportLab 库合并 CVS 和图像生成 PDF 文档
ReportLab 是一个非常流行的 Python 库,专门用于生成 PDF 文档,提供了丰富的功能,可以创建复杂的文档,包括文本、图像、表格、图表等。原创 2024-07-25 13:55:57 · 769 阅读 · 0 评论 -
Server - 配置 Kubernetes 多任务流程 KubeFlow Pipeline 的开发教程
Kubernetes 的 KFP(Kubeflow Pipelines)是一个平台,用于构建和部署可扩展和可移植的机器学习(ML)工作流。允许用户以简单、可复用和可组合的方式定义机器学习任务,并支持各种 ML 框架。KFP 包括一个用于构建 ML 管道的 SDK,以及用于运行这些管道的运行时环境。通过 KFP,用户可以轻松地将机器学习模型从实验转移到生产环境,同时保持模型的可追溯性和版本控制。原创 2024-07-24 15:26:06 · 640 阅读 · 0 评论 -
PyTorch - 高效快速配置 Conda + PyTorch 环境 (解决 segment fault )
在配置算法项目时,因网络下载速度的原因,导致默认的 conda 与 pytorch 包安装缓慢,需要配置新的 conda 与 pip 源,以及下载安装 pytorch 环境。原创 2023-11-17 14:51:37 · 1044 阅读 · 0 评论 -
Paper - Zotero 论文管理 以及 订阅最新 蛋白质结构预测(PSP) 领域论文
Zotero 是一款优秀的文献管理工具,可以快速地收集、整理和管理各种类型的文献资源,无论是书籍、期刊文章、报告、网页还是多媒体文件。可以在 Zotero 中为文献添加标签、笔记、附件等元数据,方便对于文献进行分类和检索。例如 Nature 的 Protein Structure Prediction 蛋白质结构预测 领域的。如果需要订阅最新的论文更新,则可以通过定义 RSS Feed 的方式订阅。这样就可以快速跟进 Nature 在 PSP 领域的论文。订阅之后,即可在 Zotero 软件中显示。原创 2023-09-22 14:30:57 · 221 阅读 · 0 评论 -
Server - PyTorch BFloat16 “TypeError: Got unsupported ScalarType BFloat16“ 解决方案
由于 BFloat16 类型的指数部分和 float32 类型一致,可以更好地处理梯度消失和梯度爆炸的问题,以及在低精度下保持数值稳定性。PyTorch 提供一些工具和方法来使用 BFloat16 类型进行混合精度训练和推理,例如 torch.bfloat16 数据类型,torch.cuda.amp 模块,torch.nn.BFloat16Module 类等。原创 2023-09-04 11:41:57 · 5762 阅读 · 1 评论 -
Server - 文字转语音 (Text to Speech) 的在线服务 TTSMaker
TTSMaker 是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语、越南语等,以及各种语音风格。可以用它来朗读文本和电子书,或下载音频文件用于商业用途(完全免费),作为一款优秀的免费TTS工具,TTSMaker可以轻松在线将文本转换为语音。原创 2023-08-14 22:31:32 · 938 阅读 · 0 评论 -
CentOS 7.2 开发环境 配置
在基础的CentOS系统中,添加各种环境配置,易于开发。查看CentOS的版本:cat /etc/redhat-release添加ll操作:vim ~/.bash_profilealias ll='ls -alF'alias la='ls -A'alias l='ls -CF'原创 2020-05-28 10:24:16 · 857 阅读 · 0 评论 -
Server - Python 库 Gensim 安装
欢迎Follow我的GitHub.Gensim is a FREE Python library - Scalable statistical semantics - Analyze plain-text documents for semantic structure - Retrieve semantically similar documentsGensim是一个免费的Python库原创 2017-08-11 10:11:50 · 2125 阅读 · 0 评论 -
Matplotlib - 绘制 带有对角线的散点图 (Diagonal Scatter Plots) 函数源码
Matplotlib 是一个用于绘制二维图形的 Python 库,提供了一个 pyplot 模块,用于创建各种类型的图表。其中一种图表是散点图(Scatter Plots),用于展示两个变量之间的关系,以及数据的分布情况。原创 2023-06-25 20:04:37 · 1411 阅读 · 0 评论 -
Server - 测试 GPU 的显卡使用率与张量之间的关系
NVIDIA A100 是一款基于 Ampere 架构的高性能 GPU,专为 AI、数据分析和高性能计算等应用场景设计。原创 2023-06-21 17:15:04 · 395 阅读 · 0 评论 -
Server - 使用网盘快速下载 Hugging Face 大模型
Hugging Face 是一家专注于自然语言处理(NLP)的公司,提供了多种工具和平台,帮助开发者和研究者构建和部署先进的 NLP 应用。Hugging Face 的核心产品是 Transformers 库,一个开源的 Python 库,包含了数千个预训练的 NLP 模型,涵盖了文本分类、问答、文本生成、情感分析等多个任务。Huggingface 还提供了 Datasets 库,是一个开源的数据集集合,包含了超过 1000 个 NLP 数据集,方便用户快速加载和处理数据。原创 2023-06-20 15:32:42 · 1685 阅读 · 0 评论 -
Server - 配置安装 Git LFS | BWM-NG | Tmux | BOS 等命令
Git LFS 是一种扩展 Git 的工具,可以让你更方便地管理大文件,如音频、视频、数据集等。要使用 Git LFS,你需要在你的项目中安装并初始化,然后用 git lfs track 命令指定哪些文件或文件类型需要用 LFS 管理。之后,你就可以像平常一样用 git add 和 git commit 提交你的更改,Git LFS 会自动处理大文件的上传和下载。可以使用不同的选项来调整输出的样式和内容,例如 -u 用于指定单位,-o 用于指定输出格式,-I 用于指定要监控的接口等。,放入bin文件夹。原创 2023-06-20 10:48:54 · 1757 阅读 · 0 评论 -
Matplotlib - 绘制 高亮显示的饼图 (Highlight Pie Chart) 函数源码
饼图 (Pie Chart) 是一种圆形统计图,被分割成片用于表示数值间的比例关系。每个切片的弧长以及相应的中心角和面积与其表示的量成正比。饼图适合用于展示构成、占比、份额等数据。原创 2023-06-07 15:56:20 · 301 阅读 · 0 评论 -
Matplotlib - 绘制 小提琴图 (Violin Plot) 函数源码
小提琴图 (Violin Plot) 类似纺锤,小提琴图是一种用来显示数据分布和概率密度的图形,结合了箱线图和核密度图的特点。小提琴图的中间部分是一个箱线图,显示了数据的中位数、四分位数和异常值。小提琴图的两侧是一个核密度图,显示了数据的分布形状。小提琴图可以用来比较不同类别或分组的数据,展示数据的差异和相似性。原创 2023-06-06 16:04:00 · 736 阅读 · 0 评论 -
Matplotlib - 绘制 重叠条形图 (Overlapped Bar) 函数源码
重叠柱状图 (Overlapped Bar) 是一种比较图,可以将两个柱状图叠加在一起,显示两个相关变量之间的差异。这种图表适合用于展示实际值和期望值之间的对比,例如实际销售额和目标销售额,实际支出和预算支出等。优点是可以直观地看出两个变量的贡献度和占比,也可以节省空间,避免使用双轴图或并列图。缺点是可能会造成视觉混淆,需要注意颜色和透明度的选择,以及图例和标签的清晰显示。原创 2023-06-06 10:08:17 · 670 阅读 · 0 评论 -
Matplotlib - 绘制 发散条形图 (Diverging Bar) 函数源码
发散条形图(Diverging Bar)是一种用于显示数据分布的图表,可以帮助我们比较不同类别或分组的数据的差异和相对性。发散条形图的特点是,以一个中心点为基准,将数据分为两个方向,通常用不同的颜色来表示正负或高低。原创 2023-06-06 15:10:26 · 473 阅读 · 0 评论 -
LeetCode - 1049 最后一块石头的重量 II (0-1背包)
背包问题: 给定一个背包容量 Target,再给定一个数组 Nums(物品),能否按一定方式选取Nums中的元素得到Target。0-1背包,即背包中的物品只能使用1次。每一回合,从中选出任意两块石头,然后将它们一起粉碎。假设石头的重量分别为 x 和 y,且 x原创 2023-05-29 20:08:27 · 567 阅读 · 0 评论 -
LeetCode - 1139 最大的以 1 为边界的正方形
题目:一个由若干0和1组成的二维网格(grid),请找出边界全部由1组成的。子网格,返回该子网格中的元素数量(网格面积)。如果不存在,则返回 0。即:只考虑边界是否为1,不考虑中心区域的0或1。例如,以下两个矩阵的子网格面积都是16。原创 2023-05-29 17:59:52 · 79 阅读 · 0 评论 -
编程随笔 - Python多进程 map 和 imap + tqdm 的使用方法
Python的map多进程处理方式调用map分布式处理函数单参数函数调用多参数函数多参数处理的核心流程分布式处理函数,param_list是参数列表,例如:pool = Pool(processes=5)pool.map(process_line_core, param_list)pool.close()pool.join()单参数函数,将参数拆分为多个参数,例如:@staticmethoddef process_line_core(data): return proce原创 2021-07-05 14:55:01 · 2165 阅读 · 0 评论 -
Program - 图像去除周围黑色区域和获得最大内接矩形
算法的目标是这样的,目前有一批图像,是旋转矫正之后的图像,旋转之后,周围的空白,使用黑色填充。现在需要一批,矫正角度之后的图像,用于训练和预测,图像的旋转角度。因此,需要提取这些图像的最大内接矩形,去掉周围的黑色区域。原始图像:目标效果,即只截取中心区域:获取图像的高和宽h, w, _ = img_bgr.shapeimg_copy = copy.copy(img_bgr)使用洪水漫灌算法,避免周围出现一些干扰点,保证4个角的都是连通域,处理之后,Mask的四个角的值是1,其他地方是0。原创 2020-11-04 19:45:49 · 2652 阅读 · 1 评论 -
Program - 图像调整长条图像为近似方形
在图像分类算法中,输入图像有些比例过大,在训练时resize图像会导致丢失信息,因此,将图像调整至近似于方形,可以降低这一部分损失。例如长条图像:调整后,比例更趋近于合理:函数逻辑如下:判断宽高比例ratio,大于4或小于0.25,进行调整,阈值4正好是2的平方。计算需要压缩的倍数,倍数是比例ratio的平方根取整。将图像水平或竖直,切分成多块,再合并图像,即是输出。源码如下:def resize_crop_square(img_arr): """ 将图像压缩至正方形原创 2021-09-17 11:56:34 · 499 阅读 · 3 评论 -
Program - Python 遍历文件夹的两种方法
在处理数据的过程中,经常需要遍历文件夹,如果远程服务器的文件是分布式存储,遍历需要更快的速度。一种是通过os.walk()遍历,直接处理文件即可。一种是通过pathlib.Path().rglob()遍历,需要过滤出文件,速度较快。注意glob()不支持递归遍历。实测pathlib.Path().rglob()方案要快于os.walk()方案。os.walk的遍历方式,支持筛选后缀和排序:def traverse_dir_files(root_dir, ext=None, is_sorted=原创 2021-09-14 20:45:58 · 18086 阅读 · 0 评论 -
Program - Python 批量检查图像是否可用
这些图像可能会导致模型的学习异常,因此,使用多进程检查数据集中的每张图像,是很有必要的。原创 2021-09-14 10:31:14 · 770 阅读 · 0 评论 -
Program - Python 计算两个球体相交的 IoU (三维 IoU)
Program - Python 计算两个球体相交的 IoU (三维 IoU)原创 2022-04-14 10:35:18 · 587 阅读 · 0 评论 -
Program - Python 快速的遍历文件夹
核心的耗时逻辑:原创 2022-06-21 11:16:21 · 938 阅读 · 0 评论 -
Pandas - 完全基于DataFrame的标签平衡(balance)方法
完全基于Pandas - DataFrame的标签平衡(balance)方法:其他,固定值降采样,用于mini数据集,参考:源码:测试结果:参考:原创 2022-07-13 17:14:20 · 1001 阅读 · 0 评论 -
Seaborn - 绘制不同类型的回归(Regression)曲线
读取csv数据:根据2个数组,绘制regplot,regplot是回归(regression)图像,如下:或者,直接绘制df的两个列,效果一致,如下:输出:使用2个y轴范围,将2个回归绘制到1张图,对比效果,如下:输出:如果需要颠倒(reverse)y轴坐标,使用ax.invert_yaxis()即可效果:需要将直线转换为曲线,增加参数order=2:效果:参考:......原创 2022-07-14 11:08:16 · 1006 阅读 · 0 评论 -
Seaborn - 绘制多标签的混淆矩阵、召回、精准、F1
Seaborn-绘制多标签的混淆矩阵、召回、精准、F1。原创 2022-07-15 08:24:36 · 1300 阅读 · 0 评论 -
Server - Docker的常用命令(Image、Container、Jupiter)
Docker是一个开放源代码的开放平台软件,用于开发应用、交付应用、运行应用。Docker允许用户将基础设施中的应用单独分割出来,形成更小的颗粒,从而提高交付软件的速度。Docker容器与虚拟机类似,但二者在原理上不同。容器是将操作系统层虚拟化,虚拟机则是虚拟化硬件,因此容器更具有便携性、高效地利用服务器。,Start one or more stopped containers,启动一个或多个已停止的容器。:需要赋予工程文件全局权限,查看运行中的容器 ,原创 2023-02-20 17:14:04 · 270 阅读 · 0 评论 -
Program - 包含颜色、百分比的直方图(Bar)绘制
Figure是一个容器,包含了所有的图形元素,如Axes,标题,图例等。Axes是一个子图,有自己的坐标系,可以绘制各种类型的图形,如折线图,柱状图,散点图等。pyplot接口是一个简单的命令式风格的接口,提供了一些类似于MATLAB的函数,可以快速地创建和修改图形。面向对象接口是一个更灵活的接口,允许用户直接操作Figure和Axes对象,以及它们的属性和方法。pylab接口是一个集成了numpy和pyplot功能的接口,旨在提供一个类似于MATLAB的环境,但不推荐使用。原创 2023-04-10 20:01:11 · 654 阅读 · 0 评论 -
Program - Python遍历包含大量文件的文件夹
os.scandir 的运行效率要高于 os.walk,在 PEP 471 中,Python 官方也推荐使用 os.scandir 遍历目录。在处理大模型的训练数据时,经常需要遍历大型文件夹,其中,可能包括数千万或数亿个文件,这时,一般的遍历函数就会非常慢,例如os.walk、glob、path.rglob等等,同时,无法预估整体的遍历时间。通过os.scandir,基于广度优先搜索算法,遍历文件,同时,输出遍历日志,支持后缀筛选,去除隐藏文件,实现遍历包含大量文件的文件夹的功能。原创 2023-04-12 15:39:36 · 829 阅读 · 0 评论 -
Server - 服务器配置 Conda 和 Jupiter Lab 的环境
Conda和Jupiter是服务器研发算法必备。可以首次安装,也可以复用环境。安装miniconda,其它版本miniconda或者anaconda均可,命令如下:实际下载地址:https://repo.anaconda.com/miniconda/,约98.8M修改路径,默认即可:注意:配置在共享区域,速度较慢,不推荐。复原创 2022-06-26 16:26:32 · 1011 阅读 · 0 评论 -
ManageEngine软件的卸载方法
ManageEngine软件是一系列由卓豪公司开发和提供的IT管理和安全解决方案,涵盖了身份和访问管理、企业服务管理、统一终端管理和安全、IT运维管理、安全信息和事件管理、高级IT分析、低代码应用开发等领域。ManageEngine软件可以帮助IT专业人员管理和监控他们的网络、服务器、应用程序、日志、合规性、资产、用户、服务等,提高IT效率和安全性,满足不同规模和行业的客户需求。ManageEngine软件提供了免费试用、本地部署、公有云和私有云等多种选择,同时也支持多种语言,包括中文。原创 2023-03-30 10:24:11 · 1556 阅读 · 0 评论 -
Linux - 批量结束(删除、停止)多进程
先检查进程是否存在,再结束进程。ps -ef | grep [填写进程相关名称] | grep -v grep | awk '{print $2}'ps -ef | grep [填写进程相关名称] | grep -v grep | awk '{print $2}' | xargs kill -9原创 2021-01-13 14:20:41 · 1852 阅读 · 0 评论 -
Linux - Mac使用sz/rz上传和下载服务器文件
从服务器上,上传和下载文件,可以使用sz、rz命令,传输支持Zmodem协议的文件。推荐使用SecureCRT的终端工具,使用sz、rz进行文件传输,下载友好,但是会存储在固定目录。默认传输位置,位于Options -> Session Options -> Terminal -> X/Y/Zmodem非常方便,也支持大文件传输。同时SecureCRT也支持,clone session,将默认跳板机的输出,全部写入,直接复制到服务器中。注意:...原创 2022-06-09 10:58:18 · 2486 阅读 · 0 评论 -
Linux - 查询和替换某一行文件
之前,一直是通过下载文件->本地修改->再上传的方式,或者通过vim修改文件,这些都非常低效,Linux中,sed函数,可以直接操作文件,无论是查询还是修改,多用sed命令,提升工作效率。例如:具体步骤:...原创 2022-06-08 21:11:55 · 935 阅读 · 0 评论 -
Linux - ZModem协议的sz命令传输文件异常
sz命令是使用ZModem协议来从Linux服务器传送文件到本地,一次可以传送一个或多个文件。相对应的从本地上传文件到Linux服务器,可以使用rz命令。Tabby工具,默认支持sz/rz命令。iTerm需要单独配置,参考 Mac osx 下安装iTerm2,并使用rz sz上传下载(附homebrew配置)然而,由于传输不稳定,sz命令传输的文件,与服务器的数据,经常出现不一致,尤其是传输tiff图像,因此使用额外三个命令,可以解决。b: 二进制传输e: 转义所有控制字符 (Z)8: 最高原创 2022-05-28 08:22:24 · 4839 阅读 · 0 评论 -
GitHub - SourceTree 提交异常 “Please use a personal access token instead.”
由于8月13日之后,SourceTree的密码需要由GitHub的密码,更换为私人访问令牌,即Personal Access Token,导致无法使用。关于的申请方式参考:https://github.blog/2020-12-15-token-authentication-requirements-for-git-operations/。原创 2021-08-16 16:35:37 · 2009 阅读 · 0 评论 -
下载m3u8-ts视频再转换为mp4
Chrome工具:m3u8 online video extractorHLS Downloader从浏览器 -> 检查 -> network中,提取m3u8的视频链接,下载ts视频。复制link address,如https://xxx.com/videos/5eba548e348b2c44a18ab508/index2.ts转换为m3u8格式,如https://xxx.com/videos/5eba548e348b2c44a18ab508/index.m3u8使用m3原创 2021-02-18 11:49:58 · 3173 阅读 · 0 评论