ブーツトラップ法
ここでブーツトラップ法について簡単に説明したいと思います。通常、私たちが実験を行う場合、例えば、1個体のショウジョウバエから得られたデータをもって結論を下すことはまずありません。ショウジョウバエの場合であれば、遺伝的に均質な系統を作製することができるので、遺伝的なバラツキは抑えることはできますが、当然私たちも人間なので、実験的な操作を行う中で、測定値に誤差が入り込むことはやむを得ないですし、ましてや、すべての個体にとって均質な環境などというものはありえないわけですから、いくつもの個体を測定することによって、結論を下すことになります。遺伝的に均質な系統でさえもこのような変異や誤差が入り込むことになるのですから、遺伝的に均質ではない系統や集団の場合には、言うまでもありません。なので、例えば、ある系統について産仔生産力を測定するときにも、いくつもの個体について測定することになり、そのそれぞれは反復あるいはレプリケーションなどと呼ばれています。
ここで、2つの異なる系統の間での、個体数の比の経時的な変動を、シミュレーション的に計算したいとします。まずそれぞれの系統について、実際に測定することによって得られた測定値を反復の間で平均化した産仔生産力と生存率を、レスリー行列といわれる行列の要素として用いることによって、その系統の経時的に変動している個体数が得られます。もう一方の系統も同じように、産仔生産力と生存率の実際の測定値を反復の間で平均化し、それをレスリー行列の要素として用いることによって、その系統の個体数の経時的な変動が計算できます。このようにして計算された、一方の系統の個体数に対する他方の系統の個体数の比を計算すればいいわけですが、この場合、お互いに平均値を用いて推定してしまっているので、比の変動もまた一通りであり、その統計的な有意性については判断することができなくなってしまいます。なので、ブーツトラップ法といわれる統計的な手法がここで登場することになります。
ブーツトラップ法は、実際に測定したり観察したりしたデータのセットをもとにして、再び同じ数の反復を備えた新たなデータのセットを作り出すことが特徴的であるといえると思います。このとき、同じ反復が重複して再びサンプリングされることもあります。このような新たなデータのセットに対して、実際の測定値を用いて計算した場合とまったく同じ手順で、個体数の比の変動を求めていきます。例えば、AとBの系統について、もともとのデータ・セットには1、2、3、4、5の番号が割り振られた反復がそれぞれあったとします。この実際のデータ・セットから、乱数を発生させるなどして新たなデータ・セットを再びサンプリングし、例えば、Aについては1、1、2、2、5のように再びサンプリングされたデータ・セットが、Bについては2、3、3、4、5のように再びサンプリングされたデータ・セットが作られたとします。こうして得られた新たなデータのセットについても、実際のデータのセットで行った手順とまったく同じように、それぞれの系統ごとで平均化することによって、個体数の比の経時的な変遷が得られます。この手順を1つの反復として、このような手順を何回も繰り返すことによって、個体数の比の経時的な変化がいくつも得られることになります。これらの、実際のデータのセットから再びサンプリングされたデータ・セットについて計算された、多くの個体数の比の経時的な変遷の間でバラツキを調べることによって、実際のデータ・セットを用いて推定された個体数の比の変動についての、標準誤差(スタンダード・エラー)もしくは信頼区間を推定することができます。標準誤差を推定する場合には、このような再びサンプリングされたデータ・セットについての反復は、25~200ぐらい必要であり、95%信頼区間のような区間を推定する場合には、このようなブーツトラップの反復は、さらに多くの反復が必要であり、一つの目安として1000は必要になるということです(Efron and Tibshirani, 1993)。今回は、標準誤差の推定を行ったので、ブーツトラップの反復は170としました。しかし後の研究では、信頼区間の推定を行いましたので、さらに多くの反復が必要になりました。その様子については、後ほど述べたいと思います。