Logistik Regresyon Katsayılarının Matematiksel Türetimi

Logistik regresyon modelleri, bağımlı değişken \(y\) ve bağımsız değişken(ler) \(x\) arasında doğrusal olmayan bir ilişki kurar ve genellikle ikili sınıflandırma problemlerinde kullanılır. Bu ilişki şu şekilde ifade edilir:

\[ P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} = \sigma(\beta_0 + \beta_1 x) \]

Burada, \(\beta_0\) kesişim noktasını, \(\beta_1\) eğimi ve \(\sigma\) sigmoid fonksiyonunu temsil eder. Bu parametreleri bulmak için Maksimum Olabilirlik yöntemini kullanıyoruz.

1. Logistik Regresyonun Temeli: Olabilirlik Fonksiyonu

Lineer regresyonda en küçük kareler yöntemini kullanırken, logistik regresyonda Maksimum Olabilirlik (Maximum Likelihood) yöntemini kullanırız. Bu yöntem, verilerin gözlenme olasılığını maksimize eden parametreleri bulur:

\[ L(\beta_0, \beta_1) = \prod_{i=1}^{n} P(y_i|x_i; \beta_0, \beta_1) \]

Her bir veri noktası için:

\[ P(y_i|x_i; \beta_0, \beta_1) = \begin{cases} P(y_i=1|x_i) & \text{eğer } y_i = 1 \\ 1 - P(y_i=1|x_i) & \text{eğer } y_i = 0 \end{cases} \]

Bu tek bir formülle ifade edilebilir:

\[ P(y_i|x_i; \beta_0, \beta_1) = P(y_i=1|x_i)^{y_i} \cdot (1-P(y_i=1|x_i))^{1-y_i} \]

2. Log-Olabilirlik

Matematiksel hesaplamaları kolaylaştırmak için, çarpım yerine toplamları kullanmak adına olabilirlik fonksiyonunun logaritmasını alırız:

\begin{align} \ell(\beta_0, \beta_1) &= \log L(\beta_0, \beta_1) \\ &= \sum_{i=1}^{n} \log P(y_i|x_i; \beta_0, \beta_1) \\ &= \sum_{i=1}^{n} \left[ y_i \log P(y_i=1|x_i) + (1-y_i) \log(1-P(y_i=1|x_i)) \right] \end{align}

Sigmoid fonksiyonunu kullanarak:

\begin{align} \ell(\beta_0, \beta_1) &= \sum_{i=1}^{n} \left[ y_i \log \sigma(z_i) + (1-y_i) \log(1-\sigma(z_i)) \right] \end{align}

Burada \(z_i = \beta_0 + \beta_1 x_i\) şeklindedir.

3. Maksimum Noktayı Bulmak

Log-olabilirlik fonksiyonunu maksimize etmek için, \(\beta_0\) ve \(\beta_1\)'e göre kısmi türevleri alır ve sıfıra eşitleriz:

β₀'a göre kısmi türev:

\[ \frac{\partial \ell}{\partial \beta_0} = \sum_{i=1}^{n} \left[ y_i - \sigma(z_i) \right] \]

β₁'e göre kısmi türev:

\[ \frac{\partial \ell}{\partial \beta_1} = \sum_{i=1}^{n} \left[ x_i(y_i - \sigma(z_i)) \right] \]

4. Türevleri Sıfıra Eşitlemek

Maksimum noktada, bu türevler sıfır olmalıdır:

\[ \frac{\partial \ell}{\partial \beta_0} = 0 \Rightarrow \sum_{i=1}^{n} \left[ y_i - \sigma(z_i) \right] = 0 \]
\[ \frac{\partial \ell}{\partial \beta_1} = 0 \Rightarrow \sum_{i=1}^{n} \left[ x_i(y_i - \sigma(z_i)) \right] = 0 \]

Bu denklemler doğrusal olmadığı için kapalı bir çözümü yoktur. Bu nedenle genellikle nümerik optimizasyon yöntemleri kullanılır.

5. Nümerik Optimizasyon: Gradyan Yükselişi

Bu denklemleri çözmek için Gradyan Yükselişi (Gradient Ascent) yöntemini kullanabiliriz. Bu iteratif bir algoritma olup, her adımda parametre değerlerini günceller:

\[ \beta_0^{(t+1)} = \beta_0^{(t)} + \alpha \cdot \frac{\partial \ell}{\partial \beta_0} \] \[ \beta_1^{(t+1)} = \beta_1^{(t)} + \alpha \cdot \frac{\partial \ell}{\partial \beta_1} \]

Burada \(\alpha\) öğrenme hızını (learning rate) temsil eder.

6. Newton-Raphson Yöntemi

Daha hızlı yakınsama için Newton-Raphson yöntemi kullanılabilir. Bu yöntem ikinci dereceden türevleri (Hessian matrisini) de kullanır:

\[ H = \begin{bmatrix} \frac{\partial^2 \ell}{\partial \beta_0^2} & \frac{\partial^2 \ell}{\partial \beta_0 \partial \beta_1} \\ \frac{\partial^2 \ell}{\partial \beta_1 \partial \beta_0} & \frac{\partial^2 \ell}{\partial \beta_1^2} \end{bmatrix} \]

İkinci dereceden türevler:

\[ \frac{\partial^2 \ell}{\partial \beta_0^2} = -\sum_{i=1}^{n} \sigma(z_i)(1-\sigma(z_i)) \] \[ \frac{\partial^2 \ell}{\partial \beta_1^2} = -\sum_{i=1}^{n} x_i^2 \sigma(z_i)(1-\sigma(z_i)) \] \[ \frac{\partial^2 \ell}{\partial \beta_0 \partial \beta_1} = \frac{\partial^2 \ell}{\partial \beta_1 \partial \beta_0} = -\sum_{i=1}^{n} x_i \sigma(z_i)(1-\sigma(z_i)) \]

Newton-Raphson güncellemesi:

\[ \begin{bmatrix} \beta_0^{(t+1)} \\ \beta_1^{(t+1)} \end{bmatrix} = \begin{bmatrix} \beta_0^{(t)} \\ \beta_1^{(t)} \end{bmatrix} - H^{-1} \begin{bmatrix} \frac{\partial \ell}{\partial \beta_0} \\ \frac{\partial \ell}{\partial \beta_1} \end{bmatrix} \]

7. Çok Değişkenli Logistik Regresyon

Birden fazla bağımsız değişken olduğunda, model şu şekilde genişletilir:

\[ P(y=1|\textbf{x}) = \sigma(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_p x_p) = \sigma(\beta_0 + \textbf{x}^T \boldsymbol{\beta}) \]

Burada \(\textbf{x} = [x_1, x_2, \ldots, x_p]^T\) ve \(\boldsymbol{\beta} = [\beta_1, \beta_2, \ldots, \beta_p]^T\) vektörlerdir.

Log-olabilirlik fonksiyonu ve türevleri benzer şekilde genişletilebilir.

8. Adım Adım Hesaplama ile Bir Örnek

Küçük bir veri seti ile adım adım hesaplama yapalım:

Adım 1: Başlangıç parametrelerini belirle

\(\beta_0^{(0)} = 0\), \(\beta_1^{(0)} = 0\)

Adım 2: İlk iterasyon için olasılıkları hesapla

Her bir \(x_i\) için \(z_i = \beta_0 + \beta_1 x_i\) ve \(P(y_i=1|x_i) = \sigma(z_i)\):

\(z_1 = 0 + 0 \cdot 1 = 0\), \(P(y_1=1|x_1) = \sigma(0) = 0.5\)

\(z_2 = 0 + 0 \cdot 2 = 0\), \(P(y_2=1|x_2) = \sigma(0) = 0.5\)

\(z_3 = 0 + 0 \cdot 3 = 0\), \(P(y_3=1|x_3) = \sigma(0) = 0.5\)

\(z_4 = 0 + 0 \cdot 4 = 0\), \(P(y_4=1|x_4) = \sigma(0) = 0.5\)

\(z_5 = 0 + 0 \cdot 5 = 0\), \(P(y_5=1|x_5) = \sigma(0) = 0.5\)

Adım 3: Türevleri hesapla

\(\frac{\partial \ell}{\partial \beta_0} = \sum_{i=1}^{5} [y_i - \sigma(z_i)] = (0-0.5) + (0-0.5) + (0-0.5) + (1-0.5) + (1-0.5) = -0.5\)

\(\frac{\partial \ell}{\partial \beta_1} = \sum_{i=1}^{5} [x_i(y_i - \sigma(z_i))] = 1(0-0.5) + 2(0-0.5) + 3(0-0.5) + 4(1-0.5) + 5(1-0.5) = -0.5 - 1 - 1.5 + 2 + 2.5 = 1.5\)

Adım 4: Parametreleri güncelle (α = 0.1 ile)

\(\beta_0^{(1)} = \beta_0^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_0} = 0 + 0.1 \cdot (-0.5) = -0.05\)

\(\beta_1^{(1)} = \beta_1^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_1} = 0 + 0.1 \cdot 1.5 = 0.15\)

Bu işlem yakınsama sağlanana kadar tekrarlanır.

Son yaklaşık değerler (birkaç iterasyon sonra)

\(\beta_0 \approx -3.0\), \(\beta_1 \approx 1.0\)

Lojistik regresyon modeli

\(P(y=1|x) = \frac{1}{1 + e^{-(-3.0 + 1.0x)}}\)

Bu model, düşük x değerleri için düşük olasılık (yaklaşık 0), yüksek x değerleri için yüksek olasılık (yaklaşık 1) tahmin eder. Eşik değeri yaklaşık x = 3'tür, bu da veri setimizle uyumludur.

9. Logistik Regresyonun Geometrik Yorumu

Logistik regresyon, özellik uzayını iki sınıfı ayıran bir karar sınırı (decision boundary) ile böler. İkili sınıflandırma durumunda, bu sınır şu denklemi sağlayan noktalardan oluşur:

\[ \beta_0 + \beta_1 x = 0 \]

Çok değişkenli durumda:

\[ \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_p x_p = 0 \]

Bu, özellik uzayını doğrusal olarak bölen bir hiperdüzlemdir.

10. Regülarizasyon

Aşırı uyumu (overfitting) önlemek için, log-olabilirlik fonksiyonuna bir ceza (penalty) terimi eklenebilir:

L2 Regülarizasyonu (Ridge):

\[ \ell_{ridge}(\boldsymbol{\beta}) = \ell(\boldsymbol{\beta}) - \lambda \sum_{j=1}^{p} \beta_j^2 \]

L1 Regülarizasyonu (Lasso):

\[ \ell_{lasso}(\boldsymbol{\beta}) = \ell(\boldsymbol{\beta}) - \lambda \sum_{j=1}^{p} |\beta_j| \]

Burada \(\lambda\) regülarizasyon parametresidir ve daha büyük değerler daha fazla regülarizasyon sağlar.

Sonuç

Logistik regresyon, sınıflandırma problemleri için güçlü bir istatistiksel yöntemdir. Lineer regresyondan farklı olarak, olasılık çerçevesinde çalışır ve Maksimum Olabilirlik yöntemi ile parametreleri tahmin eder.

Bu yöntem, basit olmasına rağmen, makine öğrenmesi alanında temel bir yapı taşı oluşturur ve daha karmaşık algoritmaların anlaşılması için önemli bir adımdır.