retarfiの日記

自然言語処理などの研究やゴルフ、音楽など。

2022-12-15から1日間の記事一覧

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

本記事はDeep Learning 論文 Advent Calendar 2022の15日目です。 本記事では以下の論文について書きたいと思います。 ※ 2022/12/16 式(2)が誤っていたため更新しました。 arxiv.org はじめに V1 Disentangled Attention Enhanced Mask Decoder 事前学習とそ…