
工具使用
一条水里的鱼
这个作者很懒,什么都没留下…
展开
-
huggingface API
【代码】huggingface API。原创 2023-08-10 12:10:10 · 420 阅读 · 0 评论 -
pandas 常用命令
low_memory=False 参数设置后,pandas会一次性读取csv中的所有数据,然后对字段的数据类型进行唯一的一次猜测。另外pandas对数据的类型是完全靠猜的,所以pandas每读取一块数据就对csv字段的数据类型进行猜一次,所以有可能pandas在读取不同块时对同一字段的数据类型猜测结果不一致。pandas读取csv文件默认是按块读取的,即不一次性全部读取;5、设置read_csv的low_memory参数为False。4、设置read_csv的dtype参数,指定字段的数据类型。原创 2023-07-09 17:51:10 · 134 阅读 · 0 评论 -
ef参数设置说明(faiss)
1、模型参数:1000代表聚类中心个数随着聚类个数的增加,模型索引的构建时间近似指数增加但搜索精度也线性增加,不影响内存占用,几乎不影响搜索耗时结论:在 Faiss 引擎的聚类情况下,对于百万级别的数据大概4000个聚类基本足够,符合 Faiss 官网文档聚类取2、搜索聚类个数结论:固定聚类数量后,随着探针数量的增加,搜索耗时会近似均匀增加,搜索精度会逐渐接近 100%。因此在 Faiss 引擎的聚类情况下,建议10%的聚类数量作为探针数量是一个比较合适的搜索耗时和精度的平衡点。原创 2022-12-29 16:23:48 · 1168 阅读 · 0 评论 -
idea 配置maven项目
打开/Users/tjl/IdeaProjects/maven/apache-maven-3.6.3/conf/settings.xml(这是maven的安装路径,根据自己maven的安装路径自行修改)文件。注意maven的安装需要依赖jdk的安装,所以必须先安装完成jdk且配置好jdk环境变量后在进行maven的安装!maven的安装很简单,就是直接解压文件就行了(当然了,前提是你下载的是zip压缩包格式,如下图)2、修改Maven的下载镜像地址为阿里源(这样后续编译,下载文件会快很多)...原创 2022-07-26 19:33:53 · 2241 阅读 · 0 评论 -
Pycharm的使用-基础版
完成以上四步,就创建好了一个python项目 按上述步骤即可创建一个空的python脚本,然后编写程序即可 1、setting ctrl+alt+s/command+, 2、ctrl+/ 注释3、ctrl+alt+L 格式化脚本原创 2022-07-13 21:24:29 · 301 阅读 · 0 评论 -
Anaconda的安装与卸载
1、anaconda的卸载cd D:\soft\Anaconda(安装目录) 找到 Uninstall-Anaconda3.exe 双击运行即可卸载2、anaconda的安装第一步:官网下载官网地址:https://www.anaconda.com/products/distribution第二步:傻瓜式一直点下一步,即可安装成功注意事项:出现黑框框,前往不要手动关闭,否则会使anaconda安装不全第三步:测试是否安装成功win + R 输入cmd 打开小黑窗口,执行pip list...原创 2022-07-03 15:09:29 · 1215 阅读 · 0 评论 -
是时候放弃 TensorFlow 集群,拥抱 Horovod 了
当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多 GPU 的分布式训练。按照并行方式,分布式训练一般分为数据并行和模型并行两种:模型并行:分布式系统中的不同 GPU 负责网络模型的不同部分。例如,神经网络模型的不同网络层被分配到不同的 GPU,或者同一层内部的不同参数被分配到不同 GPU;数据并行:不同的 GPU 有同一个模型的多个副本,每个 GPU 分配到不同的数据,然后将所有 GPU 的计算结果按照某种方式合并。注意,上述中的不用 GPU 可以是同一台机上的多个 GPU,也可以是不用机上原创 2022-07-02 15:01:28 · 495 阅读 · 0 评论 -
ssh 方式git clone 代码仓库
一、背景 工作中,git的使用必不可少,拉取Git仓库常用的有两种方式,一是以https方式 git clone;二是以ssh的方式。第一种方法最简单,一般拿到地址,直接git clone url即可,二、第二种方法需要配下ssh公私钥,当然也非常简单,最好两种方法都要掌握,因为很有可能其中一种不奏效,会拉取失败。二、操作步骤1、生成公私钥 ssh-keygen -o 默认保存路径 在 ~/.ssh/2、vim ~/.ssh/id_rsa.pub 打开公钥,复制内容到git......原创 2021-12-27 15:39:59 · 13416 阅读 · 0 评论 -
mac 重装java
一、背景 Java 常应用于系统开发,下面来演示如何重装java,安装java指的是安装jdk而不是jre。二、步骤 1、卸载已有的打开终端输入:java -version或 javac -version查看已安装的Java的版本依次输入以下命令进行卸载:21.输入sudo rm -fr /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin2.输入sudo rm -fr /Library/Pre...原创 2021-12-10 10:04:18 · 1778 阅读 · 1 评论 -
docker 权限问题 Got permission denied while trying to connect to the Docker daemon socket at
一、前言docker安装完成,一般用户没有权限启动docker服务,只能通过sudo来通过root用户权限来启动docker,此时对于一般用户而言,需要执行docker ps或者docker images命令查看容器或者镜像提示如题所示的错误。二、解决办法1、使用sudo docker ps或者sudo docker images2、如果嫌每次加个sudo麻烦,可把当前用户加入到docker 组,命令如下:sudogroupadd docker#添加docker...原创 2021-08-04 10:12:40 · 933 阅读 · 0 评论 -
服务器上安装Anconda遇到的坑
一、背景 在公司申请了一台全新的服务器用于开发,调试代码。二、安装anconda 第一步:去官网,用本机下载anconda安装包,因为是服务器,所以安装包有别于windows或mac而是一个.sh文件 第二步:上传到服务器上,直接执行命令 sh Anconda.sh,然后按提示输入安装,可以指定安装目录,也可以默认安装目录,等待安装完。 第三步:vim ~/.bashrc 打开这个,会发现conda自动配好了环境变量,如下图:...原创 2021-07-27 10:00:08 · 389 阅读 · 0 评论 -
linux服务器安装Anconda并创建虚拟环境
一、前言有时候得到一台liunx系统的开发机(比如入职新司)需要自己搭建一个Python的开发环境,这边我建议安装Anconda,里面会带python,相比其他方式省去了很多shi'q原创 2021-06-18 21:12:21 · 2029 阅读 · 0 评论 -
使用ssh-keygen生成私钥和公钥并连接跳板机
一、前言工作中一般需要用利用跳板机来连接远程开发机器来进行开发,下面是利用ssh-keygen生成私钥和公钥来连接跳板机终端:MobaXterm(为什么不用xshell,因为它收费,公司不能用,而MobaXterm是免费的)...原创 2021-05-28 14:14:13 · 716 阅读 · 0 评论 -
python多线程下载图片(代码可调试)
./image.parquet数据存放地址:链接:https://pan.baidu.com/s/1DYWkQxzXhTvw1mPY3ukoww提取码:tjlwimport osimport sysimport timeimport threadpoolimport requestsimport numpy as npfrom tqdm import tqdmimport tensorflow as tfimport pandas as pdimport pyarrow....原创 2021-04-25 11:11:11 · 518 阅读 · 1 评论 -
对比pyspark处理数据与hive处理数据
过滤:hive: select * from table where 'age'>1spark: df=df.filter(df.age>1)过滤空值:select * from table where age is not nulldf=df.filter(df.age.isNotNull())选择某字段的最大值:select max(age) max_age from tabledf=df.agg(F.max(df.age)).withColumnRenam.原创 2020-05-28 19:59:26 · 732 阅读 · 0 评论 -
示例详述Docker部署tensorflow-serving
Docker简单入门一、前言工作中,有时需要线下验证训练好的模型,是否能在线上serving成功,所以需要利用docker来简单部署tensorflow-serving,然后线下进行验证模型能否成serving,避免出现模型过大,tensorflow-serving版本不对等情况,导致serving失败。二、Docker部署tf-serving步骤1、Docker安装2、拉取tensorflow-serving镜像tensorflow-serving是向下兼容的,所以可拉取最近的原创 2020-12-28 19:24:21 · 1400 阅读 · 1 评论 -
win10下:pycharm指定Docker中的Python做解释器
上一篇:Docker入门指南一、前言上一篇中,介绍了在linux和win10中安装docker,并用示例介绍了1、拉取镜像 2、生成容器 3、进入容器 4、安装软件 5、提现生成新的容器 6、容器迁移到其他机器使用这篇文章,将介绍如何让pycharm运行docker中环境。为什么要用docker做我们的解释器呢?主要还是为了方便切换环境,来运行不同版本的软件,如Python和tensorflow。当然有人会说,可以利用虚拟环境来运行不同版本的软件,但是,虚拟环境不利于迁移,还有有的时候pip安装软件原创 2020-12-27 22:02:35 · 798 阅读 · 0 评论 -
Docker入门指南
一、前言Docker 是一个开源的应用容器引擎,基于Go 语言并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。通俗来讲,安装docker后,就可以利用docker来创建容器,容器可简单理解为一个虚拟机,然后再可以容器内安装程序运行所需要的环境,然后可以编写代码,以及运行。目的就是隔离宿主机的环境,方便移植,你把容器拷到其他机器,代码还是可以直接运行。下面就慢慢来介绍:..原创 2020-12-25 21:36:23 · 321 阅读 · 0 评论