サンガー法では何種類のDNA断片ができるか

サンガー法において、一本の鋳型 DNA、一種類のプライマー、通常の dNTP 群、およびある終止ヌクレオチド ddXTP を用いて反応させたとき、反応後に何種類の DNA 断片が生じるか。

実はこれは、そのままではあまりよく定義されていない。曖昧さの源は単純で、何を「断片」と数えるのか、何を「種類」とみなすのか、そして何を「観測された断片」と呼ぶのかが指定されていないからである。

以下では、一本の鋳型・一本のプライマー・一種類の終止ヌクレオチド ddXTP のみを加えた理想化系を考える。現代の one-tube のダイターミネーター法をそのまま一般論として扱うのではなく、まず論点が最も見えやすい最小模型に話を限定する。

サンガー法の話では、反応機構と観測結果がひとまとめに語られがちだが、厳密には少なくとも次の三つを分けて考えた方がよい。

反応チューブ内の全 DNA を数えるのか、それとも新たに合成された鎖だけを数えるのか。
分子種（化学的実体）、塩基配列、鎖長（断片サイズ）のどれを「種類」と呼ぶのか。
ダイプライマー法（プライマー標識）とダイターミネーター法（終止ヌクレオチド標識）のどちらの検出系を前提にするのか。

この三つを混ぜたまま「断片の種類数」を問うと、答えは一意に定まらない。

一本の鋳型と一本のプライマーがあり、通常の dNTP に加えて、ある一種類の終止ヌクレオチド ddXTP を入れた系を考える。プライマーの 3′ 末端から鋳型末端まで、最大で $M$ 塩基だけ伸長できるとする。また、その区間のうち ddXTP が相補的に取り込まれうる位置の集合を $S_X \subseteq \lbrace 1,\dots,M \rbrace$ と書く。

各分子は、理想化すれば「最初に ddXTP が入った位置」で終止するか、最後まで ddXTP を入れずに伸び切るかのどちらかである。このとき、完成した新生鎖をどう同一視するかで数え上げは変わる。

分子種（化学的実体）として数えるなら、位置 $i \in S_X$ で ddX により止まった産物と、最後まで伸び切った run-off 産物（全長産物）は別である。したがって分子種数は $\lvert S_X \rvert + 1$。
塩基配列や鎖長で数えるなら、事情は少し違う。もし末端位置 $M$ 自身で ddX が入る可能性があると、$M$ で ddX 終止した産物と通常ヌクレオチドで末端まで伸びた産物は、鎖長も配列も同じになる。違いは3’末端の糖の構造（3’-Hか3’-OHか）にしか残らない。したがって、配列の種類数と鎖長の種類数は $\lvert S_X \cup \lbrace M \rbrace \rvert$ になる。

ここで見落としやすいのは、「終止位置が $n$ 個あるから $n+1$ 種類」という言い方が、分子種としては正しくても、鎖長や配列の話としては過大評価になる場合があることだ。つまり、この時点ですでに「何を同一視するのか」が本題になっている。

単一鋳型・単一プライマー系では、新生鎖の各鎖長は合成される配列の一意な接頭辞に対応する。したがって、新生鎖だけを見ている限り、普通は「鎖長の種類数」と「配列の種類数」は一致する。

それでも分子種とのずれは残る。末端位置での ddX 終止と run-off は、化学的には別物だが、鎖長や塩基配列では同一視されるからである。さらに、鋳型鎖や未反応プライマーまで一緒に数え始めると、鎖長と配列の1対1対応は簡単に壊れる。

要するに、同じ鎖長のものを一種類とみなすのか、末端化学まで区別して別分子種とみなすのかは、分子のどの属性を同一性の基準にするかの問題である。算数の問題に見えて、実際には「どの違いを無視するか」の問題になっている。

もう一つ重要なのは、反応機構と観測可能性を分けることである。サンガー法の自動化の歴史では、標識位置によって大きく分けて二つの蛍光標識方式がある。

一つは、蛍光色素をプライマーに付ける方式（ダイプライマー法）である。この場合、プライマーから伸長した産物は、途中で止まったものも最後まで伸びたものも、原理的にはすべて蛍光標識を受け継ぐ。したがって run-off 産物も検出対象に入る。

もう一つは、蛍光色素を伸長停止をもたらす ddNTP 側に付ける方式（ダイターミネーター法）である。こちらでは、ddNTP を取り込んで終止した産物だけが蛍光を持つ。一度も ddNTP を入れずに最後まで伸びた run-off 産物は標識されない。

したがって、同じ反応機構を仮定していても、何種類の断片が「見える」かは標識方式で変わる。上の記号を使えば、

ダイプライマー法で観測される鎖長の種類数は $\lvert S_X \cup \lbrace M \rbrace \rvert$
ダイターミネーター法で観測される鎖長の種類数は通常 $\lvert S_X \rvert$

になる。

ただし、これは途中脱落や false stop を無視し、完成した産物だけを観測対象にする理想化のもとでの式である。現実の系では、ダイプライマー法では途中で伸長が止まった標識断片も検出されうる一方、ダイターミネーター法では ddNTP を取り込まずに止まった断片には色素が付かないため観測から落ちる。したがって、「観測される断片数」は反応機構だけでなく、標識方式に加えて、どの程度まで「完成産物のみを考慮する」という理想化を採るかにも依存する。

この差は本質的である。「反応でできた断片数」と「検出されるピーク数」を同じものとして扱うと、ここで必ず混乱する。

さらに厳密に言えば、反応停止時のチューブ内には、完成した新生鎖だけがあるわけではない。未反応プライマー、鋳型鎖、場合によっては部分伸長中の中間体も残りうる。

ただし、この立場を取ると数は配列や反応モデルだけから一意に定まらない。どれだけ中間体が残るかは、反応時間、停止条件、ポリメラーゼのプロセシビティ（連続伸長能力）、温度履歴、二次構造、ヌクレオチド比などの反応カイネティクス（速度論的要因）に依存するからである。つまり、「反応後にチューブ内に存在する全 DNA 分子種数」は、反応条件と入力分子の扱いを指定しない限り不定である。

普通、鋳型鎖は反応の入力であって「反応で生じた DNA 断片」とは数えない。もしそれまで含めて数えるなら、問題文の側がその前提を明示する必要がある。

単一鋳型・単一プライマー・単一終止ヌクレオチド種 ddXTP の理想化系では、少なくとも次の区別を置いておくと混乱が減る。

完成した新生鎖の分子種（化学的実体）の数: $\lvert S_X \rvert + 1$
完成した新生鎖の塩基配列の種類数: $\lvert S_X \cup \lbrace M \rbrace \rvert$
完成した新生鎖の鎖長の種類数: $\lvert S_X \cup \lbrace M \rbrace \rvert$
ダイターミネーター法で検出される鎖長の種類数: 通常 $\lvert S_X \rvert$
反応停止時にチューブ内に存在する全 DNA 分子種数: 指定がない限り不定

結局のところ、サンガー法で「何種類の DNA 断片が生じるか」という問いは、反応機構の理解そのものというより、「どの状態空間の、どの同値類を、どの検出系のもとで数えるのか」を明示しているかどうかの問題である。曖昧なのは答えではなく、しばしば問いの側なのである。