高通量数据分析过程中涉及的中间文件,在存储量允许的前提下,可以将其暂存备查。通常可以将这些文件归档或压缩后保存,并打上日期标签,长时间未使用的非重要数据可考虑删除以腾出存储空间。在此总结Linux系统常用的归档与压缩指令。
-
数据归档
归档即将多个文件(目录)打包为一个文件,但并不对文件进行压缩。
- 命令:tar
# 归档data1和data2两个文件
tar -cvf data.tar data1.txt data2.txt
# 归档data目录
tar -cvf data.tar data/
# 解包到data_new目录
tar -xvf data.tar -C data_new
# -c 创建打包文件,一般与-f选项一起连用
# -x 从备份文件中还原文件
# -v 显示指令执行过程
# -f 指定备份文件,在参数的最后
# -C 指定解包目录
从归档文件中提取指定文件
# 得到所需文件的绝对路径
tar -tvf data.tar.gz | grep LOC_05g
# 提取指定文件
tar -xvf data.tar.gz data/LOC_05g01010.xls
# -t 列出备份文件的内容
-
数据压缩
- 命令: tar
将归档后的文件进行压缩,可指定压缩比例。
# 归档与压缩data1和data2两个文件
tar -cvzf data.tar.gz data1.txt data2.txt
# 归档与压缩data目录
tar -cvzf data.tar.gz data/
# 解压缩到data_new目录
tar -xvzf data.tar.gz -C data_new
# -c 创建打包文件,一般与-f选项一起连用
# -x 从备份文件中还原文件
# -z 通过gzip指令处理备份文件
# -v 显示指令执行过程
# -f 指定备份文件,在参数的最后
# -C 指定解包目录
从压缩文件中提取指定文件
# 得到所需文件的绝对路径
tar -tvzf data.tar.gz | grep LOC_05g
# 提取指定文件
tar -xvzf data.tar.gz data/LOC_05g01010.xls
# -t 列出备份文件的内容
