word2vecで得られるembeddingと比較して、self-attentionで生成されるembeddingがなぜ優れているのか腑におちていなかったけど、共起しづらい関連語(例えば同義語同士は共起しづらい)について改善が期待できるなと気づいた。 vision transformerで同様の計算が必要かはまた別の議論