BPE分词

首先，需要下载bpe文件，其中包括dict.txt，encoder.json，vocab.bpe三个文件。
接下来，使用如下命令对文本进行bpe分词。

TASK=samsum
for SPLIT in train val
do
  for LANG in source target
  do
    python -m examples.roberta.multiprocessing_bpe_encoder \
    --encoder-json encoder.json \
    --vocab-bpe vocab.bpe \
    --inputs "$TASK/$SPLIT.$LANG" \
    --outputs "$TASK/$SPLIT.bpe.$LANG" \
    --workers 60 \
    --keep-empty;
  done
done

需要注意的是，虽然在源代码中--inputs以及--outputs为list，看似可以同时处理多个文件，但是这里有个要求是这些文件的文本条数是相同的，否则会在第一个进程完成后结束程序，导致某些文件未处理完。

parser.add_argument(
    "--inputs",
    nargs="+",
    default=['-'],
    help="input files to filter/encode",
)
parser.add_argument(
    "--outputs",
    nargs="+",
    default=['-'],
    help="path to save encoded outputs",
)

二值化

fairseq-preprocess \
  --source-lang "source" \
  --target-lang "target" \
  --trainpref "${TASK}/train.bpe" \
  --validpref "${TASK}/val.bpe" \
  --destdir "${TASK}-bin/" \
  --workers 60 \
  --srcdict dict.txt \
  --tgtdict dict.txt;

fairseq-preprocess命令会调用preprocess.py文件。在生成自定义数据时，需要修改preprocess.py，fairseq/binarizer.py以及fairseq/data/dictionary.py。

经过这两步后，会生成*.source-target.source.bin, *.source-target.target.idx，dict.source.txt以及dict.target.txt文件。

下一篇文章（三）Fairseq 模型，主要介绍fairseq自定义模型。

最后编辑于：2022.05.30 18:45:32

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Fairseq框架学习（二）Fairseq 预处理

Fairseq框架学习（二）Fairseq 预处理

BPE分词

二值化

推荐阅读更多精彩内容

友情链接更多精彩内容