Lineer Regresyon Katsayılarının Matematiksel Türetilmesi
Lineer regresyon modeli, bağımlı değişken \(y\) ile bağımsız değişken \(x\) arasında doğrusal bir ilişki kurarak veri setini en iyi şekilde temsil etmeye çalışır. Bu ilişki şu şekilde ifade edilir:
\[ y = \beta_0 + \beta_1 x \]
Burada \(\beta_0\) kesişim noktasını (y-eksenini kestiği nokta) ve \(\beta_1\) eğimi temsil eder. Bu parametreleri bulmak için En Küçük Kareler yöntemi kullanılır.
1. En Küçük Kareler Yönteminin Temeli: Hata Fonksiyonu
Bu yöntem, gerçek \(y\) değerleri ile model tahminleri arasındaki farkların karelerinin toplamını minimize etmeyi amaçlar. Bu toplam, hata fonksiyonu (cost function) olarak adlandırılır:
\[ J(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 \]
Burada:
- \(y_i\) : Gerçek \(y\) değerleri
- \(x_i\) : Bağımsız değişken değerleri
- \(n\) : Veri noktalarının sayısı
2. Minimum Noktayı Bulmak
Hata fonksiyonunu minimize etmek için, \(\beta_0\) ve \(\beta_1\)'e göre kısmi türevlerini alıp sıfıra eşitleriz:
β₀ için kısmi türev:
\[ \frac{\partial J}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) \]
β₁ için kısmi türev:
\[ \frac{\partial J}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i(y_i - \beta_0 - \beta_1 x_i) \]
3. Türevleri Sıfıra Eşitleme
Minimum noktada, bu türevler sıfır olmalıdır.
β₀ için denklem:
\[ \frac{\partial J}{\partial \beta_0} = 0 \Rightarrow \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0 \]
Bu denklemi düzenleyelim:
\[ \sum_{i=1}^{n} y_i - n\beta_0 - \beta_1 \sum_{i=1}^{n} x_i = 0 \]
\[ n\beta_0 = \sum_{i=1}^{n} y_i - \beta_1 \sum_{i=1}^{n} x_i \]
\[ \beta_0 = \frac{\sum_{i=1}^{n} y_i}{n} - \beta_1 \frac{\sum_{i=1}^{n} x_i}{n} \]
Ortalama değerleri kullanarak:
\[ \beta_0 = \bar{y} - \beta_1 \bar{x} \]
β₁ için denklem:
\[ \frac{\partial J}{\partial \beta_1} = 0 \Rightarrow \sum_{i=1}^{n} x_i(y_i - \beta_0 - \beta_1 x_i) = 0 \]
Bu denklemi açarsak:
\[ \sum_{i=1}^{n} x_i y_i - \beta_0 \sum_{i=1}^{n} x_i - \beta_1 \sum_{i=1}^{n} x_i^2 = 0 \]
4. Denklem Sistemini Çözme
Yukarıda \(\beta_0\) için bulduğumuz formülü \(\beta_1\) denkleminde yerine koyalım:
\[ \sum_{i=1}^{n} x_i y_i - (\bar{y} - \beta_1 \bar{x}) \sum_{i=1}^{n} x_i - \beta_1 \sum_{i=1}^{n} x_i^2 = 0 \]
Düzenlemeye devam edelim:
\[ \sum_{i=1}^{n} x_i y_i - \bar{y} \sum_{i=1}^{n} x_i + \beta_1 \bar{x} \sum_{i=1}^{n} x_i - \beta_1 \sum_{i=1}^{n} x_i^2 = 0 \]
\[ \sum_{i=1}^{n} x_i y_i - \bar{y} \sum_{i=1}^{n} x_i = \beta_1 \sum_{i=1}^{n} x_i^2 - \beta_1 \bar{x} \sum_{i=1}^{n} x_i \]
\(\sum_{i=1}^{n} x_i = n\bar{x}\) olduğunu kullanarak:
\[ \sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y} = \beta_1 \sum_{i=1}^{n} x_i^2 - \beta_1 n \bar{x}^2 \]
Buradan \(\beta_1\)'i çekelim:
\[ \beta_1 = \frac{\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y}}{\sum_{i=1}^{n} x_i^2 - n \bar{x}^2} \]
5. Daha Basit Bir Formülasyon Türetme
Bu formülü daha anlaşılır bir şekle dönüştürelim. İlk olarak, pay kısmını düzenleyelim:
\begin{align}
\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y} &= \sum_{i=1}^{n} x_i y_i - \bar{y}\sum_{i=1}^{n} x_i \\
&= \sum_{i=1}^{n} (x_i y_i - \bar{y}x_i) \\
&= \sum_{i=1}^{n} x_i(y_i - \bar{y})
\end{align}
Benzer şekilde payda için:
\begin{align}
\sum_{i=1}^{n} x_i^2 - n \bar{x}^2 &= \sum_{i=1}^{n} x_i^2 - \bar{x}\sum_{i=1}^{n} x_i \\
&= \sum_{i=1}^{n} (x_i^2 - \bar{x}x_i) \\
&= \sum_{i=1}^{n} x_i(x_i - \bar{x})
\end{align}
Bir adım daha ileri gidelim ve şunu fark edelim:
\begin{align}
\sum_{i=1}^{n} x_i(y_i - \bar{y}) &= \sum_{i=1}^{n} (x_i - \bar{x} + \bar{x})(y_i - \bar{y}) \\
&= \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) + \bar{x}\sum_{i=1}^{n}(y_i - \bar{y})
\end{align}
Son terim sıfırdır çünkü \(\sum_{i=1}^{n}(y_i - \bar{y}) = 0\). Benzer şekilde paydadaki ifade de sadeleştirilir. Sonuç olarak:
\[ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{Cov(x,y)}{Var(x)} \]
Burada \(Cov(x,y)\) x ve y arasındaki kovaryansı, \(Var(x)\) ise x'in varyansını temsil eder.
6. Son Formüller
Böylece, en küçük kareler yöntemiyle lineer regresyon katsayıları için şu formülleri elde ederiz:
Eğim (β₁):
\[ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{Cov(x,y)}{Var(x)} \]
Kesişim (β₀):
\[ \beta_0 = \bar{y} - \beta_1 \bar{x} \]
7. Örnek Üzerinde Hesaplama
Küçük bir veri seti üzerinde adım adım hesaplama yapalım:
- x = [1, 2, 3, 4, 5]
- y = [2, 3.5, 5, 6.2, 8]
Adım 1: Ortalamaları hesapla
\(\bar{x} = \frac{1+2+3+4+5}{5} = 3\)
\(\bar{y} = \frac{2+3.5+5+6.2+8}{5} = 4.94\)
Adım 2: β₁ hesapla
Önce pay kısmını:
\((1-3)(2-4.94) + (2-3)(3.5-4.94) + (3-3)(5-4.94) + (4-3)(6.2-4.94) + (5-3)(8-4.94)\)
\(= (-2)(-2.94) + (-1)(-1.44) + (0)(0.06) + (1)(1.26) + (2)(3.06)\)
\(= 5.88 + 1.44 + 0 + 1.26 + 6.12 = 14.7\)
Ardından payda kısmını:
\((1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\)
\(= 4 + 1 + 0 + 1 + 4 = 10\)
Sonuç olarak:
\(\beta_1 = \frac{14.7}{10} = 1.47\)
Adım 3: β₀ hesapla
\(\beta_0 = 4.94 - 1.47 \times 3 = 4.94 - 4.41 = 0.53\)
Adım 4: Regresyon denklemini yaz
\(y = 0.53 + 1.47x\)
Bu, bizim verilerimiz için en iyi uyan doğrusal modeldir. Her birim x artışında, y yaklaşık 1.47 birim artacaktır ve x=0 olduğunda y=0.53 olacaktır.
Sonuç
En Küçük Kareler yöntemi, lineer regresyon parametrelerini bulmak için kullanılan matematiksel bir tekniktir. Bu yöntem, hatanın karesini minimize etmeye çalışır ve sonuç olarak tahminlerimiz ile gerçek değerler arasındaki farkın en az olduğu bir doğru elde ederiz. Yukarıdaki türetme adımları, formüllerin nereden geldiğini açıkça göstermektedir.
Bu yöntem, istatistiksel modelleme ve veri analizinin temel yapı taşlarından biridir ve birçok modern makine öğrenmesi algoritmasının temelini oluşturur.