【箇条書き】NLPモデルの特徴まとめ
前提と基礎知識 NLPモデルに入力データが与えられるまでの過程 文章を与える ↓ Tokenizerでトークン化(単語・サブワード・文字などに分割) 例: "I love NLP" → ["I", "love", "NL", "##P"] ↓ 語彙表(Vocabulary)を使って、トークン → トークンID に変換 例: ["I", "love", "NL", "##P"] → [101, 2293, 17953, 1925] ↓ ※ 必要に応じてパディング・マスキング・特殊トークン付与 例: [CLS], [SEP], [PAD] などをここで追加(BERTなど) ↓ Embedding層にトークンIDを与える └ ID ...