retarfiの日記

自然言語処理などの研究やゴルフ、音楽など。

2022-01-01から1年間の記事一覧

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

本記事はDeep Learning 論文 Advent Calendar 2022の15日目です。 本記事では以下の論文について書きたいと思います。 ※ 2022/12/16 式(2)が誤っていたため更新しました。 arxiv.org はじめに V1 Disentangled Attention Enhanced Mask Decoder 事前学習とそ…

新卒で社会人博士として入学しました

はじめに 本記事は社会人学生 Advent Calendar 2022の6日目の記事です。 Advent Calendarに参加するのは初めてなので、お手柔らかに見ていただけますと幸いです。 本記事では、新卒で入社した年に社会人博士(以下社D)として入学した者としての経緯や実感を述…

HuggingFaceのtransformers.trainerをDeepSpeedと一緒に使うときの注意覚書

事前学習関連で色々試していたらHuggingFaceのtransformersとDeepSpeedのIntegrationでうまくいかないところがあった。 具体的には、transformers.TrainerとDeepSpeedを同時に使っていて、さらにgraidient_accumulation_stepsが1でない場合に、transformers.…

transformersのDataCollatorForWholeWordMaskについての覚書き

以前BERTやELECTRAを日本語で事前学習するリポジトリを作った (https://github.com/retarfi/language-pretraining)のだが、 その際に参考にしたtransoformersのversionは4.7.2だった。 v4.7.2では、DataCollatorForWholeWordMaskの実装が間違っていたため、…

本当に簡単なゴルフ場を探す

ゴルフを始めてあまり経っていない人とラウンドに行く機会が増えました。 ゴルフ場を予約するときに気になってきたのが、コースの難易度です。 特に始めたての頃は、コースが難しすぎると大変です。 (もちろん自分のスコアも良くはないのですが) なので、な…

2022.08.05 Orangestar UNDEFINED SUMMER-NOISE

Orangestarさんのライブ@東京ガーデンシアターに行ってまいりました。 orangestar-undefinedsummer-noise.com 自分の大学・大学院生活で再生回数が最も多いアーティストさんはOrangestarさんだと思います。 それくらい思い入れが深く(前回のライブは予定か何…

遅刻ばかりする店長のいる不動産屋 AX8 トラスト・レジデンス 神保町本店

概要 対応した店長が内見に20分遅刻、読み合わせの時間の5分後に出社 インターネット回線について適切な情報をもらえない 新居をSUUMOで探していたところ、お目当ての物件を扱っている不動産業者がこちらしかなかったのでこちらで内見の予約。 神保町・小川…

WikiExtractorが実はbulletを落としている

久々にWikipediaのdumpファイルを処理しようとWikiExtractorを動かそうとしたのですが、 GitHubからcloneしただけでは動かず。 zenn.dev ここにあるように、詳しくは調査していませんがPythonを3.7にしたら動きました。 それより大事なこととして、初期状態…

研究するときの個人的おすすめ

痛感したことをその都度更新していく 査読や研究室内での複数回チェックがある論文は、必ずGitで管理する とりあえずコードはGit管理 とりあえずコピペで新しいプログラムを生成しない→生成するほど管理コストが増えていく

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

arxiv.org なにかのタイミングで著者のTwitterを見てICLR2022通ったところから見ました。 Excited to share that we have released 170+ pretrained transformer checkpoints of many different shape & sizes as part of our #ICLR2022 paper on "Scaling T…

PromptBERT: Improving BERT Sentence Embeddings with Prompts

arxiv.org Sentence Embeddingを得る時、普通のBERTをFine-tuningなしで使うと全然使い物にならず、GloVeにも劣るとのこと。 自分もちょっと試した時全然ダメでした。 なので、テンプレートを用意したりdenoiseすると良いよ!という感じです。 具体的には、"…

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension

arxiv.org 韓国の方々?のようですが日本語のQuestion Answering(QA)のデータセットの論文です。 論文中にもありますが、QAの日本語はドライブデータしかないっぽいので大変ありがたい。 論文中では東北大学のbert-base-japanese(Unidicの方)でFine-tuningし…

tqdmのprogress barが改行しまくらないようにする

ディスプレイの横いっぱいにターミナルを展開していると、tqdmが横いっぱいに開いてしまってウィンドウ幅を半分にすると改行しまくってしまう時がある.。 この場合はすぐ100%になるから良いが、少しずつのときは困る。 tqdmのドキュメントtqdm.tqdm - tqdm d…

BibTeXのinproceedingsとarticle

研究室の後輩から、bibでジャーナルやカンファレンスのタイトルが出ないと相談を受けた。 qiita.com inproceedingsならbooktitle、articleならjournalで書かないと意味がないようだ。

shellやPythonでslackに通知したい時

PC

Pythonでプログラム終了時にslack通知はやっていたのですが、最近bashでPythonをぐるぐるすることが増えました。 なのでbashでもslackで通知を送れるようにしました。 bash #!/bin/bash function send_slack() { payload={\"text\":\"$1\"} curl -X POST -H …

Ubuntu・Cent OSのアップデート

PC

Ubuntuは最近覚えてきたが、CentOSはあまり台数が少なく忘れてしまうのでメモ。 Ubuntu sudo apt update sudo apt upgrade sudo apt autoremove CentOS sudo yum check-update sudo yum update sudo yum autoremove