Logistik Regresyon Katsayılarının Matematiksel Türetimi

Logistik regresyon modelleri, bağımlı değişken \(y\) ve bağımsız değişken(ler) \(x\) arasında doğrusal olmayan bir ilişki kurar ve genellikle ikili sınıflandırma problemlerinde kullanılır. Bu ilişki şu şekilde ifade edilir:

Burada, \(\beta_0\) kesişim noktasını, \(\beta_1\) eğimi ve \(\sigma\) sigmoid fonksiyonunu temsil eder. Bu parametreleri bulmak için Maksimum Olabilirlik yöntemini kullanıyoruz.

1. Logistik Regresyonun Temeli: Olabilirlik Fonksiyonu

Lineer regresyonda en küçük kareler yöntemini kullanırken, logistik regresyonda Maksimum Olabilirlik (Maximum Likelihood) yöntemini kullanırız. Bu yöntem, verilerin gözlenme olasılığını maksimize eden parametreleri bulur:

2. Log-Olabilirlik

Matematiksel hesaplamaları kolaylaştırmak için, çarpım yerine toplamları kullanmak adına olabilirlik fonksiyonunun logaritmasını alırız:

3. Maksimum Noktayı Bulmak

Log-olabilirlik fonksiyonunu maksimize etmek için, \(\beta_0\) ve \(\beta_1\)'e göre kısmi türevleri alır ve sıfıra eşitleriz:

β₀'a göre kısmi türev:

β₁'e göre kısmi türev:

4. Türevleri Sıfıra Eşitlemek

Bu denklemler doğrusal olmadığı için kapalı bir çözümü yoktur. Bu nedenle genellikle nümerik optimizasyon yöntemleri kullanılır.

5. Nümerik Optimizasyon: Gradyan Yükselişi

Bu denklemleri çözmek için Gradyan Yükselişi (Gradient Ascent) yöntemini kullanabiliriz. Bu iteratif bir algoritma olup, her adımda parametre değerlerini günceller:

6. Newton-Raphson Yöntemi

Daha hızlı yakınsama için Newton-Raphson yöntemi kullanılabilir. Bu yöntem ikinci dereceden türevleri (Hessian matrisini) de kullanır:

7. Çok Değişkenli Logistik Regresyon

Birden fazla bağımsız değişken olduğunda, model şu şekilde genişletilir:

Burada \(\textbf{x} = [x_1, x_2, \ldots, x_p]^T\) ve \(\boldsymbol{\beta} = [\beta_1, \beta_2, \ldots, \beta_p]^T\) vektörlerdir.

8. Adım Adım Hesaplama ile Bir Örnek

Küçük bir veri seti ile adım adım hesaplama yapalım:

x = [1, 2, 3, 4, 5]
y = [0, 0, 0, 1, 1]

Adım 1: Başlangıç parametrelerini belirle

\(\beta_0^{(0)} = 0\), \(\beta_1^{(0)} = 0\)

Adım 2: İlk iterasyon için olasılıkları hesapla

Her bir \(x_i\) için \(z_i = \beta_0 + \beta_1 x_i\) ve \(P(y_i=1|x_i) = \sigma(z_i)\):

\(z_1 = 0 + 0 \cdot 1 = 0\), \(P(y_1=1|x_1) = \sigma(0) = 0.5\)

\(z_2 = 0 + 0 \cdot 2 = 0\), \(P(y_2=1|x_2) = \sigma(0) = 0.5\)

\(z_3 = 0 + 0 \cdot 3 = 0\), \(P(y_3=1|x_3) = \sigma(0) = 0.5\)

\(z_4 = 0 + 0 \cdot 4 = 0\), \(P(y_4=1|x_4) = \sigma(0) = 0.5\)

\(z_5 = 0 + 0 \cdot 5 = 0\), \(P(y_5=1|x_5) = \sigma(0) = 0.5\)

Adım 3: Türevleri hesapla

\(\frac{\partial \ell}{\partial \beta_0} = \sum_{i=1}^{5} [y_i - \sigma(z_i)] = (0-0.5) + (0-0.5) + (0-0.5) + (1-0.5) + (1-0.5) = -0.5\)

\(\frac{\partial \ell}{\partial \beta_1} = \sum_{i=1}^{5} [x_i(y_i - \sigma(z_i))] = 1(0-0.5) + 2(0-0.5) + 3(0-0.5) + 4(1-0.5) + 5(1-0.5) = -0.5 - 1 - 1.5 + 2 + 2.5 = 1.5\)

Adım 4: Parametreleri güncelle (α = 0.1 ile)

\(\beta_0^{(1)} = \beta_0^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_0} = 0 + 0.1 \cdot (-0.5) = -0.05\)

\(\beta_1^{(1)} = \beta_1^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_1} = 0 + 0.1 \cdot 1.5 = 0.15\)

Bu işlem yakınsama sağlanana kadar tekrarlanır.

Son yaklaşık değerler (birkaç iterasyon sonra)

\(\beta_0 \approx -3.0\), \(\beta_1 \approx 1.0\)

Lojistik regresyon modeli

\(P(y=1|x) = \frac{1}{1 + e^{-(-3.0 + 1.0x)}}\)

Bu model, düşük x değerleri için düşük olasılık (yaklaşık 0), yüksek x değerleri için yüksek olasılık (yaklaşık 1) tahmin eder. Eşik değeri yaklaşık x = 3'tür, bu da veri setimizle uyumludur.

9. Logistik Regresyonun Geometrik Yorumu

Logistik regresyon, özellik uzayını iki sınıfı ayıran bir karar sınırı (decision boundary) ile böler. İkili sınıflandırma durumunda, bu sınır şu denklemi sağlayan noktalardan oluşur:

10. Regülarizasyon

Aşırı uyumu (overfitting) önlemek için, log-olabilirlik fonksiyonuna bir ceza (penalty) terimi eklenebilir:

L2 Regülarizasyonu (Ridge):

L1 Regülarizasyonu (Lasso):

Sonuç

Logistik regresyon, sınıflandırma problemleri için güçlü bir istatistiksel yöntemdir. Lineer regresyondan farklı olarak, olasılık çerçevesinde çalışır ve Maksimum Olabilirlik yöntemi ile parametreleri tahmin eder.

Bu yöntem, basit olmasına rağmen, makine öğrenmesi alanında temel bir yapı taşı oluşturur ve daha karmaşık algoritmaların anlaşılması için önemli bir adımdır.