retarfiの日記

自然言語処理などの研究やゴルフ、音楽など。

2022-10-01から1ヶ月間の記事一覧

transformersのDataCollatorForWholeWordMaskについての覚書き

以前BERTやELECTRAを日本語で事前学習するリポジトリを作った (https://github.com/retarfi/language-pretraining)のだが、 その際に参考にしたtransoformersのversionは4.7.2だった。 v4.7.2では、DataCollatorForWholeWordMaskの実装が間違っていたため、…