
代码小抄
作为SB的第76个月
某大厂
展开
-
awk 过滤 + 拼接
输入的是两个文件,用NR和FNR的关系可以区分。NR==FNR就是在前面的文件,NR!=FNR指的是在后面的文件。基于此,灵活的操作就可以尽情展开,速度快,代码量少,随用随写。需要从content_ori.list中过滤 filter.list文档中第二列为0的id。给定一个原始文档,content_ori.list,内容如下。既要过滤掉第二列为0的,又要将第三列接在过滤后的文本中。再给定一个过滤文档,filter.list,内容如下。再进一步,过滤文档中有额外增加的字段,比如。原创 2023-09-07 15:20:47 · 340 阅读 · 0 评论 -
shell读取文件中的行(比较保守的方法)
【shell 小白】有数据如下,文件名为debug.list,现在需要按行读取处理。如果直接用下面的方式读取debug.list,filename="debug.list"while read LINEdo echo $LINE done < $filename会出错,读取不完整,比如下图中的第二行的key的“13”被忽略了。【网上有很多解释这个现象的原因】用下...原创 2020-03-23 10:45:31 · 298 阅读 · 1 评论 -
Faiss建立索引并保存(C++)
Faiss 建立索引并保存。如果用IndexHNSWFlat,就采用IndexIDMap进行映射。#include "index_io.h"//#include "IndexIVF.h"//#include "IndexIVFFlat.h"#include "IndexHNSW.h"//#include "IndexIVFPQ.h"#include "MetaIndexes.h"...原创 2020-03-02 17:49:36 · 3615 阅读 · 4 评论 -
shell根据时间遍历处理
shell根据时间遍历处理#! /bin/sh test.shdate=`date -d "+0 day $1" +%Y%m%d`enddate=`date -d "+1 day $2" +%Y%m%d`echo "------------------------------"echo "date=$date"echo "enddate=$enddate"echo "--...原创 2020-02-27 10:35:28 · 291 阅读 · 0 评论 -
手工数据分片shell代码
split -n的问题:分割文件会在行的中间截断。因此 采用 如下方法 。先数文件行数,然后计算每个部分的平均行数file=demo.txtpart=50WORKSPACE=./FN=$(wc -l < ${file})spn=$[$[${FN}/${part}]+1]echo "split..."rm -f ${WORKSPACE}/*split -l ${spn...原创 2020-02-27 10:31:45 · 191 阅读 · 0 评论