回帰分析とは、複数の変量、たとえば、身長と体重といったデータで、一方の変数が増える(減る)と、他方の変数も増える(減る)というような場合に、「その関係性をうまく表現できるような数式」を求めることを言います。
Originでは、線形、多項式、非線形フィットツールおよび線形多重回帰ツールで様々な回帰分析を実行できます。
単回帰、多項式回帰、重回帰分析 回帰式の決定(最小二乗法) 回帰結果が良いかどうか Originでの回帰分析の機能とオプション身長と体重の例の場合、下図のようなデータに対し、Originの線形フィットツールを使用して回帰分析を実行すると、グラフ中の赤線のような直線が計算されます。
この直線を回帰線といい、この線の式として y = a + b*x という回帰式を得られます。この式のなかの、aは直線のY切片(x=0の時のy値)で、bは直線の傾きを表しています。このように数式として表現することによって、たとえば、身長の値からその人の体重を予測するといったことが可能になります。
上述の例のように、説明変数であるxが一つで、y = a + b*x という直線の回帰式にを求める分析を単回帰分析あるいは、線形回帰といいます。
同じように説明変数(x)が一つでも、xとyの関係が直線の関係でない場合には、多項式回帰によって分析します。
多項式回帰の場合に得られる回帰式は、y = b0 + b1*x + b2*x² + … + bn*xn という形式になります。
回帰式の決定には、一般的に最小二乗法という手法が使用されます。
Yデータから、Yの予測値を引いた値が残差と呼ばれ、各データの残差を二乗して合計した値(残差平方和、カイ二乗)が最小になるような回帰式を求める方法が最小二乗法です。
回帰結果の良さは、回帰線が実際のデータポイントにどの程度近いのか、得られた回帰式がどのくらいデータを説明しているかで確認します。その際の指標として、決定係数(R2)というものがあります。
決定係数は0~1までの値をとり、1に近ければ近いほど回帰直線のフィット具合が良いとされています。逆に、0に近ければ近いほど回帰直線のフィット具合が良くないと判断します。
Originで回帰分析を実行した場合は、結果のレポートシートにおいて「R二乗(COD)」が表示されます。
しかし、決定係数 R2は、説明変数の数に左右されるため、Originでは、自由度を考慮した補正R2(自由度調整済み決定係数)も計算します。
自由度が小さいときの回帰直線は、根拠が信用しづらいと判断され、通常の決定係数に比べて補正R2の値は下がります。一方、自由度が大きい場合は十分な根拠となると判断され、補正R2は通常の決定係数に比べてもあまり下がりません。
なお、通常の決定係数は0から1の値を取りますが、補正R2の場合は負の値を取ることもあります。もともとの決定係数が0に近く、かつ自由度が小さい場合に負になることがあります。
Originでは、以下のツールを使用して、様々な回帰分析が可能です。
以下はフィットツールで使用できるオプションです。