1. uniq 命令 (去除行内的重复字串)
先进行sort,然后uniq (只能处理相邻的重复行,所以需要先行sort)
uniq 重复行只显示一个记录
uniq -c 统计重复数
uniq -u 不显示重复行
2. awk命令 列操作,行操作
行:NR FNR
列:NF
awk内置变量:
ARGC 命令行参数个数
ARGV 命令行参数数组
FILENAME string=当前输入的文件名
FNR 在当前文件中当前记录数(对输入文件起始为1)
FS 输入字段分隔符
NF 当前记录的字段数
NR 当前记录数(为全部输入文件)
OFMT 数值的输出格式(默认为%.6g)
OFS 输出字段的分隔符(默认为空格)
ORS 输出记录分隔符(默认为换行符)
RS 输入记录分隔符(默认为换行符)
3.shell字符串,字串操作
[以下答案为转载]
假设我们定义了一个变量為:4 i: X& K3 t7 r5 T) w
file=/dir1/dir2/dir3/my.file.txt! s1 I2 u |: {
我们可以用 ${ } 分别替换获得不同的值:: e, P; O- F1 b/ J0 |/ A$ F
${file#*/}:拿掉第一条 / 及其左边的字串:dir1/dir2/dir3/my.file.txt
${file##*/}:拿掉最后一条 / 及其左边的字串:my.file.txt
${file#*.}:拿掉第一个 . 及其左边的字串:file.txt4 g5 C2 |4 s) J
${file##*.}:拿掉最后一个 . 及其左边的字串:txt% T6 `3 w3 D; ^( R' N# T$ I$ K% s
${file%/*}:拿掉最后条 / 及其右边的字串:/dir1/dir2/dir3
${file%%/*}:拿掉第一条 / 及其右边的字串:(空值). e, n6 U! R6 h) s4 i) H- t5 E
${file%.*}:拿掉最后一个 . 及其右边的字串:/dir1/dir2/dir3/my.file
${file%%.*}:拿掉第一个 . 及其右边的字串:/dir1/dir2/dir3/my
记忆的方法為:
# 是去掉左边(在鑑盘上 # 在 $ 之左边)
% 是去掉右边(在鑑盘上 % 在 $ 之右边)
单一符号是最小匹配﹔两个符号是最大匹配。. w; e$ T. i# {+ z- b
${file:0:5}:提取最左边的 5 个字?:/dir1
${file:5:5}:提取第 5 个字?右边的连续 5 个字?:/dir2; H$ z- r2 W' j9 y+ m" e: o& R0 |
我们也可以对变量值裡的字串作替换:
${file/dir/path}:将第一个 dir 提换為 path:/path1/dir2/dir3/my.file.txt
${file//dir/path}:将全部 dir 提换為 path:/path1/path2/path3/my.file.txt& ], k) W5 X7 D# [( B% T* P- r0 c* T
利用 ${ } 还可针对不同的变数状态赋值(没设定、空值、非空值):
${file-my.file.txt} :假如 $file 為空值,则使用 my.file.txt 作默认值。(保留没设定及非空值)8 P& u" I3 }# P5 H' K) E6 y- C
${file:-my.file.txt} :假如 $file 没有设定或為空值,则使用 my.file.txt 作默认值。 (保留非空值)( [: o; }4 U2 }5 c/ Q( D# B
${file+my.file.txt} :不管 $file 為何值,均使用 my.file.txt 作默认值。 (不保留任何值)) u. ~" N& |3 l) F
${file:+my.file.txt} :除非 $file 為空值,否则使用 my.file.txt 作默认值。 (保留空值)
${file=my.file.txt} :若 $file 没设定,则使用 my.file.txt 作默认值,同时将 $file 定义為非空值。 (保留空值及非空值)
${file:=my.file.txt} :若 $file 没设定或為空值,则使用 my.file.txt 作默认值,同时将 $file 定义為非空值。 (保留非空值)! M% }6 t5 h& z0 ~. C4 Z) w7 h
${file?my.file.txt} :若 $file 没设定,则将 my.file.txt 输出至 STDERR。 (保留空值及非空值))
${file:?my.file.txt} :若 $file 没设定或為空值,则将 my.file.txt 输出至 STDERR。 (保留非空值)
还有哦,${#var} 可计算出变量值的长度:/ `4 F; }, y8 Y% z1 q
${#file} 可得到 27 ,因為 /dir1/dir2/dir3/my.file.txt 刚好是 27 个字?...; n9 /0 s' f6 f+ X0 x, Z1 V2 K
接下来我们来看看 bash 的组数(array)处理方法。1 |9 o7 i F( }8 @8 T- L& i
一般而言,A="a b c def" 这样的变量只是将 $A 替换為一个单一的字串,
但是改為 A=(a b c def) ,则是将 $A 定义為组数...
bash 的组数替换方法可参考如下方法:: f( M$ M/ B; x. j; ]/ G) Z# J$ {
${A[@]} 或 ${A
- } 可得到 a b c def (全部组数)
${A[0]} 可得到 a (第一个组数),${A[1]} 则為第二个组数...
${#A[@]} 或 ${#A - } 可得到 4 (全部组数数量)* q5 |* e7 t$ q2 [' i" q
${#A[0]} 可得到 1 (即第一个组数(a)的长度),${A[3]} 可得到 3 (第一个组数(def)的长度)' i* H& }& a, r0 i# ^; V
A[3]=xyz 则是将第 4 个组数重新定义為 xyz ...
4.gcc常用flag5. Makefile的写法
6. gdb用法,查看栈,跳过函数执行
backtrace
finish
7. c 内存管理(防止内存泄露)智能指针
8. 定义指向int型的数组的指针
int (*ptr)[10]
9. 定义C函数指针
typedef void (*fun) (void)
10. C++ 成员函数 const 作用
不能改变类的成员变量
11. 进制转换
12. 大文件去重
hash,取模,trie数或者hash
13. Hadoop
14. python整数对象,如何避免重复生成15. 第N个由2、3、5组成的数(N的因子只有2/3/5中的一个或多个)
16. 大数据量排序/去重
17. 百万词汇量的辞典,设计搜索框提示(可以预处理)