Mac 与 Linux 随机抽样文本文件

有时碰到一个大文件,要对这个文件进行采样,比如采样多少条,发现 linux 和 mac 上都有一个不错的命令,可以对文件进行抽样。

mac 安装 gshuf

gshuf 集成到了 coreutils 里面,通过 brew 直接安装 coreutils 就可以。

brew install coreutils

mac 上使用 gshuf

gshuf -n 20000 full.txt > sample.csv

linux 上使用 shuf 对文本文件采样

shuf -n N input > output

Mac 上使用 gnu 的工具包

brew install coreutils findutils gnu-tar gnu-sed gawk gnutls gnu-indent gnu-getopt grep

发表评论