JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension
韓国の方々?のようですが日本語のQuestion Answering(QA)のデータセットの論文です。
論文中にもありますが、QAの日本語はドライブデータしかないっぽいので大変ありがたい。
論文中では東北大学のbert-base-japanese(Unidicの方)でFine-tuningしているよう。
再現実験しつつちょっと自分の作ったELECTRAとかでも試してみたいですね。
日本語ベンチマークデータセットの話題だと、柴田先生や早稲田の河原先生のグループのJGLUEがNLP2022あたりでお披露目になるのかな、とこちらも楽しみです。
英語はもちろんのこと、その他の言語に比べても日本語の評価セットが少なく、ベンチマークとなる評価セットの整備が日本語NLPの進展には欠かせないことから、ヤフーと早稲田大学河原研究室の共同研究で今年度より日本語版GLUE(JGLUE)を構築し始めました。詳細については順次アナウンスします。
— Tomohide Shibata (@stomohide) 2021年7月15日
多分このためにRoBERTa-base作ったんだと思っていますが、、、
あと最近の潮流ですが、サブワードがsentencepiece増えてるのと、日本語データセットがWikipedia dumpからWikipedia dumpとCC-100の融合が増えつつあるような。
自分はWikipediaだけで作ってしまったので、こちらも大きくしてみたい気も。
ちょっと前ですがrinnaがGPT2とRoBERTaを公開したので、こちらも試したかったり、色々忙しい…