一文でまとめると: 詳細に踏み込む前に、まず地図を描く。データがどこから入り、何を通り抜け、どこから予測が出てくるのかを把握しましょう。


3.1 なぜ地図から始めるのか?

第2章では、巨大なモデルを次のように単純化しました。

パラメータ + 推論コード

しかし、その推論コードは実際に何をしているのでしょうか?

本章は各コンポーネントを深掘りする章ではありません。全体像を提示する章です。街を歩く前に地図を眺めるようなものだと考えてください。主要なランドマークを把握しておけば、後続の章で出てくる話題を地図上に貼り付けていけます。

本章を読み終えると、次の点について頭の中にモデルができているはずです。

  • 入力は何か
  • 途中でどんな変換が起きるか
  • 出力は何か
  • なぜ同じブロックが何度も繰り返されるのか

3.2 まずは簡略フローから

Simplified Transformer flow

下から上へと、データは 7 つの段階を通り抜けます。

3.2.1 生のテキスト

入力はテキストから始まります。

The agent opened a pull request.

コンピュータはテキストを直接理解できません。数値が必要です。

3.2.2 トークン ID

最初のステップでは、テキストをトークン ID に変換します。

"The agent opened a pull request."
-> [791, 8479, 9107, 264, 6958, 1715, 13]

このプロセスを Tokenization と呼びます。第4章で詳しく扱います。

3.2.3 トークンベクトルと位置

トークン ID はまだ整数にすぎません。モデルはこれを埋め込みテーブルで引き、各トークンをベクトルに変換します。

そのうえで位置情報を加えます。順序が重要だからです。

"The agent tagged the reviewer" != "The reviewer tagged the agent"

3.2.4 Attention

Attention は、トークンが他のトークンを見て何が重要かを判断するための仕組みです。

たとえばモデルが request を処理するとき、pullopenedagent に注意を向ける必要があるかもしれません。Attention はそうした関係性を計算するメカニズムです。

3.2.5 正規化と処理

ニューラルネットワーク内を流れる数値は大きくなりすぎたり不安定になったりすることがあります。LayerNorm は値を妥当な範囲に保ちます。

その後、Feed Forward Network が各位置をさらに処理します。Attention がトークン間の関係についての処理だとすれば、FFN は各トークン内部の表現を変換する処理です。

3.2.6 確率

最後にモデルは語彙中の各トークンに対するスコアを生成します。Softmax がそのスコアを確率に変換します。

3.2.7 次のトークン

モデルはその確率分布から次のトークンを選ぶ、あるいはサンプリングします。そして第2章で見た自己回帰ループが繰り返されます。

簡略フローは次のようになります。

text -> token IDs -> vectors + position -> repeated blocks -> probabilities -> next token

3.3 標準アーキテクチャ

ここからは簡略地図から標準アーキテクチャへと進みます。

Standard decoder-only Transformer architecture

3.3.1 入力

モデルはトークン ID のシーケンスを受け取ります。

3.3.2 トークン埋め込み

各トークン ID はベクトルにマッピングされます。最終的には、似たトークンはベクトル空間内で近くに位置するようになります。たとえば pull requestcode review のベクトルは、pull requestplaylist のベクトルよりも近いはずです。

3.3.3 位置情報

Transformer ブロックはそれ自体ではシーケンスの順序を知りません。位置情報は、どのトークンが1番目で、2番目で、3番目で…とモデルに教える役割を持ちます。

3.3.4 Masked Multi-Head Attention

これがコアコンポーネントです。

  • Masked は、次のトークンを予測する際にモデルが未来を見ないようにすることを意味します。
  • Multi-head は、モデルが複数の Attention の視点を並列に使うことを意味します。
  • Attention は、各トークンが他のトークンの情報をどれだけ強く使うかを計算することを意味します。

3.3.5 LayerNorm と残差接続

LayerNorm は数値を安定化します。残差接続は、すべての変換を強制的に通すのではなく、情報がブロックを迂回できるようにします。

両方とも後の章で詳しく扱います。

3.3.6 Feed Forward Network

FFN は各トークン位置に適用される小さなニューラルネットワークです。表現を拡張・変換し、再びモデルの次元に射影します。

3.3.7 N 回繰り返す

Transformer ブロック1つでも有用ですが、何枚もスタックすると強力になります。

小型モデルでは 12 レイヤー程度、大型モデルでは数十レイヤーを使うこともあります。各レイヤーが表現を洗練していきます。

3.3.8 Linear と Softmax

最後の隠れベクトルは語彙サイズのスコアにマッピングされます。語彙が 100,256 トークンあれば、出力も 100,256 個のスコアになります。

Softmax がそのスコアを確率に変換します。


3.4 もう少し詳しい地図

Detailed Transformer architecture map

この図は情報量が多くなりますが、いま暗記しようとしないでください。目標は主要なゾーンを認識することです。

3.4.1 Attention の内部

Attention は入力 X から始まります。

モデルは X に学習可能な3つの行列を掛けます。

  • WQQuery を生成
  • WKKey を生成
  • WVValue を生成

そしてその後、

  1. QK を掛け合わせて類似度を測ります。
  2. スコアをスケーリングします。
  3. マスクで未来トークンの漏洩を防ぎます。
  4. Softmax がスコアを Attention の重みに変換します。
  5. その重みを V に適用します。
  6. 複数のヘッドを連結します。
  7. WO が結合結果を射影します。

ここが本書の核心です。第8章から第12章にかけてゆっくり紐解いていきます。

3.4.2 デコーダーブロック

デコーダーブロックは、Attention を正規化、残差経路、Feed Forward Network で包み込んだ構造になっています。

簡略化したブロックは次のとおりです。

input
-> masked multi-head attention
-> add + layer norm
-> feed forward
-> add + layer norm
-> output

3.4.3 LM ヘッド

Language Model Head は、隠れベクトルを語彙空間へ戻すマッピングです。

hidden vector -> logits over vocabulary -> probabilities

これによってモデルは内部状態を次トークンの予測に変換します。


3.5 3つの地図の関係

地図詳細度主な用途
簡略フロー専門外の人にシステムを説明する
標準アーキテクチャ論文を読み、モデル図を理解する
詳細地図実装とアーキテクチャを結び付ける

3つはどれも同じシステムを表現しています。違うのは解像度だけです。

便利なたとえ。

  • 簡略地図 = 国の地図
  • 標準地図 = 街の地図
  • 詳細地図 = 通りの地図

3.6 コンポーネントの予告

本書の残りは、地図を1つずつ歩いていきます。

3.6.1 コアコンポーネント

コンポーネント一行説明
第4章Tokenizationテキスト -> トークン ID
第5章Positional Encoding順序情報を加える
第6章LayerNorm と Softmax数値を安定化し、スコアを確率にする
第7章ニューラルネットワークレイヤー表現を処理する

3.6.2 Attention

コンポーネント一行説明
第8章線形変換行列乗算を幾何的に理解する
第9章Attention の幾何なぜ内積が類似度になるのか
第10章Q, K, Vクエリ、キー、バリューの意味
第11章Multi-Head Attention複数の視点が役立つ理由
第12章Attention の出力Attention は実際に何を更新しているのか

3.6.3 アーキテクチャ全体

コンポーネント一行説明
第13章残差と Dropout深い学習を安定化する
第14章埋め込みと位置入力表現を深く理解する
第15章完全なフォワードパスすべてのコンポーネントをつなぐ
第16章学習 vs 推論2つの動作モードを理解する

3.7 章のまとめ

3.7.1 中心となるフロー

input text
    |
Tokenization
    |
Embedding
    |
Position information
    |
Transformer block x N
    |
Linear projection
    |
Softmax
    |
next token

3.7.2 覚えておきたい用語

用語役割
Tokenizationテキストをトークン ID に変換する
Embeddingトークン ID をベクトルに変換する
Positional Encoding順序情報を加える
Multi-Head Attentionトークン間の関係を学習する
LayerNorm数値の範囲を安定化する
Feed Forward各トークン表現を処理する
残差接続レイヤーをまたいで情報を保つ
Softmaxスコアを確率に変換する

3.7.3 核心の持ち帰り

Transformer は構造的にはシンプルです。入力処理、繰り返されるブロック、出力予測。ブロックには2つの主要な仕事があります。Attention が関係を学習し、FFN が情報を処理します。


章末チェックリスト

本章を終えて、次のことができるようになっていれば十分です。

  • Transformer の簡略フローを描ける。
  • デコーダー専用 Transformer の主要コンポーネントを挙げられる。
  • 入力テキストから次トークンの確率まで、データの流れを説明できる。
  • 今後の章を全体地図のどこに置くか位置付けられる。

次章へ

地図読みはこれくらいで十分です。テキストから確率までのパイプラインをホワイトボードに描き直せるなら、最初のコンポーネントへズームインする準備ができています。

ここから第2部「コアコンポーネント」が始まります。

第4章では Tokenization を扱います。テキストはどう数値になるのか、英語と中国語ではなぜトークン化が違うのか、そしてなぜモデルは単語ではなくトークンを数えるのか、を解説します。

ここまでで本章はおしまいです。次の章でまた。

このページを引用する
Zhang, Wayland (2026). 第3章: Transformer 全景図. In Transformer アーキテクチャ:直感から実装まで. https://waylandz.com/llm-transformer-book-ja/chapter-03-transformer-map
@incollection{zhang2026transformer_ja_chapter_03_transformer_map,
  author = {Zhang, Wayland},
  title = {第3章: Transformer 全景図},
  booktitle = {Transformer アーキテクチャ:直感から実装まで},
  year = {2026},
  url = {https://waylandz.com/llm-transformer-book-ja/chapter-03-transformer-map}
}