有时碰到一个大文件,要对这个文件进行采样,比如采样多少条,发现 linux 和 mac 上都有一个不错的命令,可以对文件进行抽样。
mac 安装 gshuf
gshuf 集成到了 coreutils 里面,通过 brew 直接安装 coreutils 就可以。
brew install coreutils
mac 上使用 gshuf
gshuf -n 20000 full.txt > sample.csv
linux 上使用 shuf 对文本文件采样
shuf -n N input > output
Mac 上使用 gnu 的工具包
brew install coreutils findutils gnu-tar gnu-sed gawk gnutls gnu-indent gnu-getopt grep