Veri Madenciliği Algoritmaları ve Teknikleri

Veri madenciliği, faydalı verileri bulmak için büyük miktarda veri aramak için kullanılan mantıksal bir işlemdir. Bu tekniğin amacı önceden bilinmeyen kalıpları bulmaktır. Bu modeller bulunduktan sonra, işletmelerinin gelişimi için belirli kararlar vermek için de kullanılabilirler.

İlgili üç adım

  • Keşif
  • Desen Tanımlama
  • Dağıtım

Veri madenciliği için sınıflandırma, kümeleme, regresyon, yapay zeka, yapay sinir ağları, birliktelik kuralları, karar ağaçları, genetik algoritma ve en yakın komşu yöntemi gibi çeşitli algoritmalar ve teknikler kullanılmaktadır.

Sınıflandırma

Sınıflandırma, en sık uygulanan veri madenciliği tekniğidir. Bu yöntem, kayıt popülasyonunu büyük ölçüde sınıflandırabilen bir model geliştirmek için bir dizi önceden sınıflandırılmış örnek kullanmaktadır. Dolandırıcılık tespiti ve kredi riski uygulamaları, bu tür analizlere özellikle uygundur. Bu yaklaşım genellikle karar ağacı veya sinir ağı tabanlı sınıflandırma algoritmalarını kullanır. Veri sınıflandırma süreci öğrenmeyi ve sınıflandırmayı içerir.

Öğrenmede eğitim verileri sınıflandırma algoritması ile analiz edilir. Sınıflandırmada, test verileri, sınıflandırma kurallarının doğruluğunu tahmin etmek için kullanılır. Doğruluk kabul edilebilir ise yeni veri demetlerine kurallar uygulanabilir. Sınıflandırıcı eğitim algoritması, doğru ayrımcılık için gerekli olan parametre setini belirlemek için bu önceden sınıflandırılmış örnekleri kullanır. Algoritma daha sonra bu parametreleri bir sınıflandırıcı olarak adlandırılan bir modele kodlar.

Sınıflandırma Modellerinin Türleri

  • Karar Ağaçları
  • Bayes Sınıflandırma
  • Yapay Sinir Ağları
  • Destek Vektör Makineleri
  • Birliktelik Bazında Sınıflandırma

Kümeleme

Kümeleme benzer nesne sınıflarının tanımlanması olarak söylenebilir. Kümeleme teknikleri kullanılarak nesne uzayındaki yoğun ve seyrek bölgeleri daha fazla tanımlayabiliriz. Genel nitelikler ve veri nitelikleri arasındaki korelasyonları keşfedebiliriz. Sınıflandırma yaklaşımı grupların veya nesne sınıflarının ayırt edilmesinde etkili araçlar için de kullanılabilir ancak bu maliyete neden olur. Örneğin, satın alma modellerine dayalı müşteri grubunu benzer işlevselliğe sahip kategorilerdeki kategorilere ayırmak.

Kümeleme yöntemleri

  • Bölümleme Yöntemleri
  • Hiyerarşik Bölücü Yöntemler
  • Yoğunluk Temelli yöntemler
  • Kılavuz tabanlı Yöntemler
  • Model tabanlı yöntemler

Tahmin

Veri madenciliğinde tahmin, veri noktalarını, sadece bir başka ilgili veri değerinin açıklamasına göre tanımlamaktır. Gelecekteki olaylarla ilintili olması gerekli değildir, ancak kullanılan değişkenler bilinmemektedir. Tahmin, bildiğiniz bir şeyle gelecekteki referans için öngörmeniz gereken şey arasındaki ilişkiyi türetir.

Örneğin, veri madenciliğindeki tahmin modelleri, belirli bir müşterinin bir satış sırasında ne kadar alışveriş yapacağını tahmin eden bir pazarlama yöneticisi tarafından kullanılır, böylece yaklaşan satış tutarı buna göre planlanabilir. Veri madenciliğinde tahmin, Sayısal Tahmin olarak bilinir. Tahmin için genel olarak regresyon analizi kullanılır.

Regresyon analizi, bir veya daha fazla bağımsız değişken ve bağımlı değişkenler arasındaki ilişkiyi modellemek için kullanılabilir. Veri madenciliğinde bağımsız değişkenler zaten bilinen özniteliklerdir, yanıt ise değişkenleri tahmin etmek istediklerimizdir. Ne yazık ki, birçok gerçek dünya problemi sadece tahminden ibaret değildir.

Örneğin, satış hacimleri, hisse senedi fiyatları ve ürün başarısızlık oranlarının tahmin edilmesi çok zordur çünkü çoklu değişkenlerin karmaşık etkileşimlerine bağlı olabilirler. Bu nedenle, gelecekteki değerleri tahmin etmek için daha karmaşık teknikler (örneğin, lojistik regresyon, karar ağaçları veya yapar sinir ağları) gerekli olabilir. Aynı model tipleri sıklıkla hem regresyon hem de sınıflandırma için kullanılabilir. Örneğin, CART (Sınıflandırma ve Regresyon Ağaçları) karar ağacı algoritması, hem sınıflandırma ağaçları (kategorik cevap değişkenlerini sınıflandırmak için) hem de regresyon ağaçlarını (sürekli yanıt değişkenlerini tahmin etmek için) oluşturmak için kullanılabilir.

Regresyon Yöntemlerinin Türleri

  • Doğrusal Regresyon
  • Çok Değişkenli Doğrusal Regresyon
  • Doğrusal Olmayan Regresyon
  • Çok Değişkenli Doğrusal Olmayan Regresyon

Birliktelik Kuralları

Birliktelik genellikle büyük veri kümeleri arasında sıkça bulunan birliktelikleri bulmaktır. Bu tür bir bulgu işletmelerin katalog tasarımı, çapraz pazarlama ve müşteri alışverişi davranış analizi gibi belirli kararları almalarına yardımcı olur.

Birliktelik kuralları analizi genellikle “Market Sepet Analizi” ile birlikte anılır, çünkü bu, birliktelik kuralları analizinin orijinal uygulama alanıydı. Amaç tüm olasılıkların rastgele örneklemesinden beklediğinizden daha sık ortaya çıkan öğelerin ilişkilerini bulmaktır. Bu işlem müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını çözümler. ( Örneğin kola alan müşteri ekmekte alır ya da yumurta alan müşteri gofrette alır vs. )

Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında raf düzenlerini belirleyerek satış oranlarını artırabilir ve etkili satış stratejileri geliştirebilirler.

Bunun klasik örneği, veri madenciliği kitaplarında sıkça sözü edilen ünlü bira ve çocuk Bezi birliktelikleridir. Analiz sonucunda çocuk bezi almak için mağazaya giden erkekler de aynı zamanda bira satın alma eğiliminde olduğu tespit edilmiştir.

  • Destek (Support): Bir varlığı içeren eylem sayısının toplam eylem sayısına oranıdır. (A / Tüm eylem sayısı)
  • Güven (Confidence): İki varlığı içeren eylem sayısının birine oranıdır. ((A+B) / A) )
  • Kaldıraç (Lift): A satıldığı zaman B’nin satış oranındaki artışa işaret eder. Kaldıraç (A -> B), Güven (A -> B)’nin Destek(B)’ye bölünmesi ile hesaplanabilir.

Bir birliktelik kuralı oluşturmak için destek, güven ve kaldıraç değerlerine bakılır. Kural için minimum destek ve minimum güven şartı aranır.

Birliktelik Kuralı Türleri

  • Çok düzeyli birliktelik kuralı
  • Çok boyutlu birliktelik kuralı
  • Kantitatif ilişkilendirme kuralı

Yapay Sinir Ağları (Neural Networks)

Sinir ağı bir dizi bağlı, giriş/çıkış birimidir ve her bağlantının onunla birlikte bir ağırlığı vardır. Öğrenme aşamasında, ağ giriş demetinin doğru sınıf etiketlerini tahmin edebilmek için ağırlık ayarlayarak öğrenir. Yapay sinir ağları, karmaşık veya kesin olmayan verilerden anlam çıkarma yeteneğine sahiptir. Kalıpları çıkarmak ve insanlar ya da diğer bilgisayar teknikleri tarafından fark edilmek için çok karmaşık olan eğilimleri tespit etmek için kullanılabilir.

Bunlar sürekli değerli girdiler ve çıktılar için çok uygundur. Örneğin, İngilizce metinleri ve birçok gerçek dünyadaki iş sorunlarını tanımlamak için, bir bilgisayarı eğitmek için, el yazısıyla yazılmış bir karakterin yeniden düzenlenmesi ve birçok endüstride başarıyla uygulanmış olmasıdır. Yapay sinir ağları, verilerdeki eğilimleri tanımlamakta ve tahmin ihtiyaçları için çok uygundur.

Yapay Sinir Ağları Türleri

  • Tek Katmanlı Sinir Ağları
  • Çok Katmanlı Sinir Ağları

Değerli ziyaretçi Veri Madenciliğine Başlarken başlıklı yazımda ilginizi çekebilir. Değerli fikirleriniz için yorum yapmanızı bekliyorum.

Bir Cevap Yaz