ACL2022論文ざっと読み
Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL2022)で気になった論文とそのメモ。 途中で句点変わっちゃってますがメモなので。。。
- Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data
- NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks
- Incorporating Stock Market Signals for Twitter Stance Detection
- Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation
- GLM: General Language Model Pretraining with Autoregressive Blank Infilling
- Buy Tesla, Sell Ford: Assessing Implicit Stock Market Preference in Pre-trained Language Models
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data
Retrievalといえば普通大規模なコーパスから検索するが,少ない訓練データから検索すれば検索コストが低い. 訓練データから検索することで性能向上が見られるか検証する. Zero-shot的ではなく訓練(training)中から他の訓練データを引っ張ってきて学習する. 要約,summarization, language modeling,翻訳,QAで検証. Retrievalのところは普通にtop KサンプルをBM25で取ってくる. 訓練データから引っ張ってきたあとは,タスクに依って入力方法が異なる. を解きたい問題の入力, を取ってきたKサンプルとすると,問題ごとに以下を入力する
- Summarization & Machine Translation: ]
- Language Modeling: ]
- Question Answering: ]
ここでQAの は選択肢. 入れ方にコツがありそうな気がする. ただ,こうすることで全てのタスクの精度が向上した.
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks
既存のタスク4つと新規タスク4つで8つの計算の含まれるベンチマークを作成. 一覧と例は論文のTable 1参照. 既存手法でベースラインも提示.
Incorporating Stock Market Signals for Twitter Stance Detection
M&Aに関連したStance Detection (support/refute/comment/unrelatedの分類タスク)に、売り手と買い手のプライスの時系列モデルを追加したモデルを提案。 金融ドメインがlongで通ってるのが個人的にうれしい。
Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation
ドメイン特化のモデル(BioBERTなど)をより軽いALBERTや重いRoBERTaに知識蒸留することでALBERTではBioBERTの再現を、RoBERTaではBioBERT越えかつRoBERTaのFine-tuning越えを示す。 さらにRoBERTaへの蒸留はTAPT(Task Adaptive Pre-training)よりよい性能を示していた。 DAPTについては言及がなかったので、RoBERTaのDAPTと比べてどうなのかは気になった。
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
Autoregressiveモデルにマスクされたスパンを予測する事前学習方法を導入。
1つの[MASK]トークンに対し、複数のトークンからなるスパンを予測させる。
マスクされたスパンが何トークンからなるかは明示的には入力せず、どの位置のマスクかとマスクの中のどの位置かの2種類のpositional encodingを使用。
複数のマスクされたスパンを前から順に予測させるのではなくシャッフルしておくことも重要らしい。
Fine-tuning時もBERTのように[CLS]トークンを使って予測するのではなく、文で処理する。
例えばある文に対するポジネガを当てたいのであれば、"
Buy Tesla, Sell Ford: Assessing Implicit Stock Market Preference in Pre-trained Language Models
Tesla stock share is going to [MASK]とした際にbuy or sellのどちらに傾きやすいかを調べると、BERTでは平均して真ん中に寄っていたもののFinBERTではpositiveな方にかなり寄る現象が見られた。 さらにセクターごとの差を見ると、FinBERTでのpositiveな傾向はどのセクターでも比較的一貫していたが、BERTでは特定のセクターに偏っていた。