retarfiの日記

自然言語処理などの研究やゴルフ、音楽など。

YANSシンポジウムに委員として参加しました

今年の4月より、YANSシンポジウムという、自然言語処理(NLP)の若手研究者の研究や開発の促進と相互交流を目的としたシンポジウムの委員を務めております。

yans.anlp.jp

その会が先ほど無事終了したので、感想を書こうと思います。
ちょっとハイみたいな感じで書いているので、後で恥ずかしくなって消すかもですが。

私は編成という役割で、その中で主にConfitという参加登録サイトと賞の選考プロセス(フォームや集計など)を担当しました。
人工知能学会全国大会(JSAI)ではConfitを参加者側として利用していましたが、YANSでConfitを導入するのは初めてで、担当者の方と連絡を取りながら設定を進めてきました。
最大1枠100万円のスポンサー費用や、合計数百万円の参加費など、これらの費用がConfitのシステム経由で入ってきます。
当然お金のミスは許されないため、設定には細心の注意を払いました。
また会場の制限から発表者や参加者にも上限が設けられているため、公平な機会となるような表示や設定を心がけました。
大規模な会になっていっている中での導入で、クリティカルなトラブルがなく会を終えることができ大変良かったです。
これは委員側の準備だけでなく、参加証をきちんと印刷して持ってきてくださったり、声掛けに応じて移動してくださったりする参加者やサポートしてくださるスポンサーあっての会でした。
もちろんログインや登録フォームなどの日程管理でミスがあったり、参加登録の順番が適切でなかったなど反省点は色々あるので、来年はそれが改善され参加者の皆さんの満足度がより高まるようなシンポジウムにしたいです。

委員の参加者としては、自分が普段見ないような発表に触れたり、委員間のコミュニケーションなど、普段の研究や業務では得られない経験をすることができました。
またオフラインだからこそ、委員をやっていたからこそ得られた会話の機会など、大変貴重な経験となりました。
今後はより様々な方とコミュニケーションを取ってみたいと思いましたし、自分の研究分野とは少し遠い方と話しても大変楽しく、また異なる分野の方と協働して研究を進めてみたいと思いました。
金融という自然言語処理からは多少離れた分野ではありますが、こういった人材も受け入れてもらえる(現に賞を取られた方の中にも金融関連の発表がありました)ところが、コミュニティの温かいことを表しているのかなと思います。
企業で働いてはいますが、アカデミアにも興味があるため、クロスアポイントメントなどそういった機会に巡り会えるよう、自身の研鑽と積極的なコミュニケーションを行っていきたいです。
あと普通に忘れそうなのでメモとして、ハッカソン形式は参加者の色々なアイデアが出てくるので、会社でも取り入れられたら良いなと思いました。

月並みですが、高校以来の文化祭をやり切ったような高揚感と準備してきたものが終わったという少し抜けた感じが入り交ざった、打ち上げ後の夜でした。
2024年の私の夏が幕を閉じたような気がします。

ACL2022論文ざっと読み

Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL2022)で気になった論文とそのメモ。 途中で句点変わっちゃってますがメモなので。。。

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data

Retrievalといえば普通大規模なコーパスから検索するが,少ない訓練データから検索すれば検索コストが低い. 訓練データから検索することで性能向上が見られるか検証する. Zero-shot的ではなく訓練(training)中から他の訓練データを引っ張ってきて学習する. 要約,summarization, language modeling,翻訳,QAで検証. Retrievalのところは普通にtop KサンプルをBM25で取ってくる. 訓練データから引っ張ってきたあとは,タスクに依って入力方法が異なる.  xを解きたい問題の入力, (x_{i_1}, y_{i_1}), \cdots ,  (x_{i_K}, y_{i_K}) を取ってきたKサンプルとすると,問題ごとに以下を入力する

  • Summarization & Machine Translation:  [x; y_{i_1}; \cdots ; y_{i_K}]
  • Language Modeling:  [y_{i_1}; \cdots ; y_{i_K}; x]
  • Question Answering:  [x; c_i; x_{i_1}; y_{i_1}; \cdots ; x_{i_K}; y_{i_K}]

ここでQAの  c_i は選択肢. 入れ方にコツがありそうな気がする. ただ,こうすることで全てのタスクの精度が向上した.

NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks

既存のタスク4つと新規タスク4つで8つの計算の含まれるベンチマークを作成. 一覧と例は論文のTable 1参照. 既存手法でベースラインも提示.

Incorporating Stock Market Signals for Twitter Stance Detection

M&Aに関連したStance Detection (support/refute/comment/unrelatedの分類タスク)に、売り手と買い手のプライスの時系列モデルを追加したモデルを提案。 金融ドメインがlongで通ってるのが個人的にうれしい。

Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation

ドメイン特化のモデル(BioBERTなど)をより軽いALBERTや重いRoBERTaに知識蒸留することでALBERTではBioBERTの再現を、RoBERTaではBioBERT越えかつRoBERTaのFine-tuning越えを示す。 さらにRoBERTaへの蒸留はTAPT(Task Adaptive Pre-training)よりよい性能を示していた。 DAPTについては言及がなかったので、RoBERTaのDAPTと比べてどうなのかは気になった。

acl2022-choi-domain

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

Autoregressiveモデルにマスクされたスパンを予測する事前学習方法を導入。 1つの[MASK]トークンに対し、複数のトークンからなるスパンを予測させる。 マスクされたスパンが何トークンからなるかは明示的には入力せず、どの位置のマスクかとマスクの中のどの位置かの2種類のpositional encodingを使用。 複数のマスクされたスパンを前から順に予測させるのではなくシャッフルしておくことも重要らしい。 Fine-tuning時もBERTのように[CLS]トークンを使って予測するのではなく、文で処理する。 例えばある文に対するポジネガを当てたいのであれば、". It is really [MASK]"のように入力し、[MASK]に対しgoodとbadのどちらの尤度が高いか、のような予測をする。 SuperGLUEでBERTやRoBERTaより良く、summarizationでもT5よりよくBARTとほぼ同等であり様々なタスクに汎用的に使えることを示している。

Buy Tesla, Sell Ford: Assessing Implicit Stock Market Preference in Pre-trained Language Models

Tesla stock share is going to [MASK]とした際にbuy or sellのどちらに傾きやすいかを調べると、BERTでは平均して真ん中に寄っていたもののFinBERTではpositiveな方にかなり寄る現象が見られた。 さらにセクターごとの差を見ると、FinBERTでのpositiveな傾向はどのセクターでも比較的一貫していたが、BERTでは特定のセクターに偏っていた。

ACL2023論文ざっと読み

Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL2023)で気になった論文とそのメモ。

Pre-trained Language Models Can be Fully Zero-Shot Learners

GPT3やGPT4ではZero shotでタスクを解けるが、実はBERTやRoBERTaなどのEncoderモデルも工夫すればZero shotで解けるのでは?という話。

普通だと上図のOriginal inputを入力して[CLS]トークンの出力から予測します。 この研究では、例えばトピック分類タスクの場合、後続のTemplateに答えさせたい内容を[MASK]トークンにして抽出するTemplateを作成します。 Original inputとTemplateを結合してLMに通し、[MASK]に何が入るかを予測させます。 トピック分類の場合SPORTS, SCIENCEなどの分類先のトピックが用意されています。 それごとにword embeddingの類似度から関連した語彙を集めます。 [MASK]が予測したトークンのlogitsについて、各トピックの関連語彙についてaggregationして、一番高い値になったトピックを予測結果とします。
Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification (ACL2022)とだいぶ近いが...

Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling

普通のEnsembleと違って、CLSを様々な形になるように学習することで、Fine-TuningとInferenceが1回で済む、ということらしい。 EMNLP2020のQuickThought (QT、連続する2文から取った[CLS]の出力のnegative coine similarityを取るらしい)に割と依っている部分がありそう。 BERTのckptから学習を続ける形でマルチタスクをやっていそう。 図が分かりづらくて読む気が進まず、、、

Self-Adaptive In-Context Learning: An Information Compression Perspective for In-Context Example Selection and Ordering

In-Cotext Learning (ICL)において、あんまり似ていないというか役に立たない例をfilter outして、良いのを使おうという話。 SelectionはTopK (embeddingで近いもの)、RankingはMinimum Description Length (MDL)が良いらしい。 LLM時代にだいぶ必要となりそうなものなので、MDLについては勉強したほうが良さそう。

Cold-Start Data Selection for Better Few-shot Language Model Fine-tuning: A Prompt-based Uncertainty Propagation Approach

labeledデータがないcold-start時には、labelの分布などもわからないためbias等問題が発生しやすい。 それを解決するPATRONを提案。 さらに、情報量の多いサンプルを抽出するプロンプトベースの不確実性を伝播させる手法と、多様性と情報量のバランスを確保するpartition-then-rewrite (PTR)ストラテジーを提案。

各ラベルについて推定された確率が高いk個ずつのサンプルを取ってきておいて、そこから語彙の各単語について[MASK]に対して予測されやすい確率のバイアスの分布的なものを求める。 それを用いて入力に対する不確実性を表すエントロピーを算出できる式(論文中ではeq.5)を求められる。 サンプルxに対してk近傍(KNN)の距離を用いて不確実性と距離を考慮した式に修正する。 などと、不確実性とKNNを利用した距離をmixした式を構築して、距離が近すぎず不確実性も低いようなサンプルを取ってくる(という話のはず)。

Small Pre-trained Language Models Can be Fine-tuned as Large Models via Over-Parameterization

Fine-tuningのときだけLMをscaling upする。FFNでLoRAの逆(rank rを大きくする)的なこと。 精度は上がっているが、大きな上昇という感じはしない。

Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models’ Memories

TransformerのFFNにdomain用のadapterをくっつける FFNなのは、FFNに知識が蓄積されるから(introの2段落頭)。 adapterは2種類:domain用とtask用。 2.4の MoEの参考文献が多分参考になるので後で読む。

2023.acl-long.280-fig1

Stage 1では今までのpre-trainingコーパスに加えてDomain-specific knowledge (タスクのターゲット)を用いて学習する。 Domain-specific knowledgeのlossは普通のMLM loss。 old domainのFFNからのlossは、Domain Adapterと元のFFNの距離を小さくするためのloss。

Stage 2ではlabel付きのデータセットで学習するため、task-adapterとMoA Gateを追加して学習する。 task-adapterは各layerのタスクspecificな知識を学習し、MoA GateはDomain adapterの出力と元のFFNの出力をconcatして元のFFNの出力の形に合うようにlinear projectionする。

Adaptive and Personalized Exercise Generation for Online Language Learning

英語の学習をテーマに、生徒の知識レベルや難易度を予測しながら、excerciseを生成するタスクを解く。 Knowledge TracerとExcercise Generatorを順に更新していくところがELECTRAっぽい。 実問題を扱いつつ定式化が丁寧。

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models

タイトルの通り大規模モデルからの蒸留と、アノテーションのどちらがよりコスト最適か?という話。 より効率的な推論のために蒸留するとのことだが、フロントエンドとか速度を要求されない限り大きいモデルのまま使えば良いような、、、 結論としては一部アノテーションしてそれ以降は蒸留するのが良いとのこと。

Downstream Datasets Make Surprisingly Good Pretraining Corpora

self-pretrainingは、下流タスクのコーパスで事前学習すること。 TAPTは下流のタスク以外のデータセットも入っているから違うらしい。 ELECTRAとRoBERTaで実験、ただcomputing resource的にハイパラがかなり小さめに設定されている。

TAPTとoffshelf(事前学習の元のコーパスで事前学習)はTAPTの方が良さそうに見えるが確実な傾向ではなかった。 self-pretrainingがoffshelfに比べて比較的良かった(これも全部ではないが平均するとoutperform)。 また、self-pretrainingとoffshelfをensembleしても多少よくはなる。 なお、ensembleの際はtemperature scaling (Guo et al., 2017)を用いている。

DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains

French domain-specific RoBERTa。 コーパスとモデルの公開がメイン?これで通るんだと思ってしまった、、

TADA: Efficient Task-Agnostic Domain Adaptation for Transformers

adaptationのためにembeddingだけをretrain。 embeddingのアンサンブルとして、単純平均やattention (meta-embedding)を比較。 tokenizerが変わったときの統合の仕方も3種提案 (Table 1)。ただこれはWordPieceでしか使えないことに留意。

メモ:JSAI2023で行きやすそうなお店リスト~ランチ編~

サクラマチクマモト内

  • 熊本ラーメン 黒亭 桜町熊本城前店 tabelog.com

  • 肉食堂よかよか サクラマチ店

    • あか牛,熊本のお肉です.
    • 2000円弱 tabelog.com
  • 天草 牛深丸 SAKURA MACHI店

  • 寿司 じじや サクラマチクマモト店

  • 肉バル ガッチャ SAKURAMACHI店

    • ステーキとか肉丼
    • 500-1000円ちょっと? tabelog.com

熊本城ホールから多分5分くらいで着くお店

個人的には天外天に行ってみたいが熊本駅... tabelog.com