Logistik regresyon modelleri, bağımlı değişken \(y\) ve bağımsız değişken(ler) \(x\) arasında doğrusal olmayan bir ilişki kurar ve genellikle ikili sınıflandırma problemlerinde kullanılır. Bu ilişki şu şekilde ifade edilir:
Burada, \(\beta_0\) kesişim noktasını, \(\beta_1\) eğimi ve \(\sigma\) sigmoid fonksiyonunu temsil eder. Bu parametreleri bulmak için Maksimum Olabilirlik yöntemini kullanıyoruz.
Lineer regresyonda en küçük kareler yöntemini kullanırken, logistik regresyonda Maksimum Olabilirlik (Maximum Likelihood) yöntemini kullanırız. Bu yöntem, verilerin gözlenme olasılığını maksimize eden parametreleri bulur:
Her bir veri noktası için:
Bu tek bir formülle ifade edilebilir:
Matematiksel hesaplamaları kolaylaştırmak için, çarpım yerine toplamları kullanmak adına olabilirlik fonksiyonunun logaritmasını alırız:
Sigmoid fonksiyonunu kullanarak:
Burada \(z_i = \beta_0 + \beta_1 x_i\) şeklindedir.
Log-olabilirlik fonksiyonunu maksimize etmek için, \(\beta_0\) ve \(\beta_1\)'e göre kısmi türevleri alır ve sıfıra eşitleriz:
Maksimum noktada, bu türevler sıfır olmalıdır:
Bu denklemler doğrusal olmadığı için kapalı bir çözümü yoktur. Bu nedenle genellikle nümerik optimizasyon yöntemleri kullanılır.
Bu denklemleri çözmek için Gradyan Yükselişi (Gradient Ascent) yöntemini kullanabiliriz. Bu iteratif bir algoritma olup, her adımda parametre değerlerini günceller:
Burada \(\alpha\) öğrenme hızını (learning rate) temsil eder.
Daha hızlı yakınsama için Newton-Raphson yöntemi kullanılabilir. Bu yöntem ikinci dereceden türevleri (Hessian matrisini) de kullanır:
İkinci dereceden türevler:
Newton-Raphson güncellemesi:
Birden fazla bağımsız değişken olduğunda, model şu şekilde genişletilir:
Burada \(\textbf{x} = [x_1, x_2, \ldots, x_p]^T\) ve \(\boldsymbol{\beta} = [\beta_1, \beta_2, \ldots, \beta_p]^T\) vektörlerdir.
Log-olabilirlik fonksiyonu ve türevleri benzer şekilde genişletilebilir.
Küçük bir veri seti ile adım adım hesaplama yapalım:
\(\beta_0^{(0)} = 0\), \(\beta_1^{(0)} = 0\)
Her bir \(x_i\) için \(z_i = \beta_0 + \beta_1 x_i\) ve \(P(y_i=1|x_i) = \sigma(z_i)\):
\(z_1 = 0 + 0 \cdot 1 = 0\), \(P(y_1=1|x_1) = \sigma(0) = 0.5\)
\(z_2 = 0 + 0 \cdot 2 = 0\), \(P(y_2=1|x_2) = \sigma(0) = 0.5\)
\(z_3 = 0 + 0 \cdot 3 = 0\), \(P(y_3=1|x_3) = \sigma(0) = 0.5\)
\(z_4 = 0 + 0 \cdot 4 = 0\), \(P(y_4=1|x_4) = \sigma(0) = 0.5\)
\(z_5 = 0 + 0 \cdot 5 = 0\), \(P(y_5=1|x_5) = \sigma(0) = 0.5\)
\(\frac{\partial \ell}{\partial \beta_0} = \sum_{i=1}^{5} [y_i - \sigma(z_i)] = (0-0.5) + (0-0.5) + (0-0.5) + (1-0.5) + (1-0.5) = -0.5\)
\(\frac{\partial \ell}{\partial \beta_1} = \sum_{i=1}^{5} [x_i(y_i - \sigma(z_i))] = 1(0-0.5) + 2(0-0.5) + 3(0-0.5) + 4(1-0.5) + 5(1-0.5) = -0.5 - 1 - 1.5 + 2 + 2.5 = 1.5\)
\(\beta_0^{(1)} = \beta_0^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_0} = 0 + 0.1 \cdot (-0.5) = -0.05\)
\(\beta_1^{(1)} = \beta_1^{(0)} + 0.1 \cdot \frac{\partial \ell}{\partial \beta_1} = 0 + 0.1 \cdot 1.5 = 0.15\)
Bu işlem yakınsama sağlanana kadar tekrarlanır.
\(\beta_0 \approx -3.0\), \(\beta_1 \approx 1.0\)
\(P(y=1|x) = \frac{1}{1 + e^{-(-3.0 + 1.0x)}}\)
Bu model, düşük x değerleri için düşük olasılık (yaklaşık 0), yüksek x değerleri için yüksek olasılık (yaklaşık 1) tahmin eder. Eşik değeri yaklaşık x = 3'tür, bu da veri setimizle uyumludur.
Logistik regresyon, özellik uzayını iki sınıfı ayıran bir karar sınırı (decision boundary) ile böler. İkili sınıflandırma durumunda, bu sınır şu denklemi sağlayan noktalardan oluşur:
Çok değişkenli durumda:
Bu, özellik uzayını doğrusal olarak bölen bir hiperdüzlemdir.
Aşırı uyumu (overfitting) önlemek için, log-olabilirlik fonksiyonuna bir ceza (penalty) terimi eklenebilir:
Burada \(\lambda\) regülarizasyon parametresidir ve daha büyük değerler daha fazla regülarizasyon sağlar.
Logistik regresyon, sınıflandırma problemleri için güçlü bir istatistiksel yöntemdir. Lineer regresyondan farklı olarak, olasılık çerçevesinde çalışır ve Maksimum Olabilirlik yöntemi ile parametreleri tahmin eder.
Bu yöntem, basit olmasına rağmen, makine öğrenmesi alanında temel bir yapı taşı oluşturur ve daha karmaşık algoritmaların anlaşılması için önemli bir adımdır.