有时碰到一个大文件,要对这个文件进行采样,比如采样多少条,发现 linux 和 mac 上都有一个不错的命令,可以对文件进行抽样。
mac 安装 gshuf
gshuf 集成到了 coreutils 里面,通过 brew 直接安装 coreutils 就可以。
1 |
brew install coreutils |
mac 上使用 gshuf
1 |
gshuf -n 20000 full.txt > sample.csv |
linux 上使用 shuf 对文本文件采样
1 |
shuf -n N input > output |
Mac 上使用 gnu 的工具包
1 |
brew install coreutils findutils gnu-tar gnu-sed gawk gnutls gnu-indent gnu-getopt grep |