retarfiの日記

自然言語処理などの研究やゴルフ、音楽など。

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension

arxiv.org

韓国の方々?のようですが日本語のQuestion Answering(QA)のデータセットの論文です。
論文中にもありますが、QAの日本語はドライブデータしかないっぽいので大変ありがたい。
論文中では東北大学のbert-base-japanese(Unidicの方)でFine-tuningしているよう。

再現実験しつつちょっと自分の作ったELECTRAとかでも試してみたいですね。

日本語ベンチマークデータセットの話題だと、柴田先生や早稲田の河原先生のグループのJGLUEがNLP2022あたりでお披露目になるのかな、とこちらも楽しみです。

多分このためにRoBERTa-base作ったんだと思っていますが、、、
あと最近の潮流ですが、サブワードがsentencepiece増えてるのと、日本語データセットWikipedia dumpからWikipedia dumpとCC-100の融合が増えつつあるような。
自分はWikipediaだけで作ってしまったので、こちらも大きくしてみたい気も。
ちょっと前ですがrinnaがGPT2とRoBERTaを公開したので、こちらも試したかったり、色々忙しい…