Veri Madenciliği

Veri Madenciliğinde Hangi Teknolojiler Kullanılıyor?

Uygulama odaklı bir alan olarak veri madenciliği, istatistik, makine öğrenmesi, örüntü tanıma, veritabanı ve veri ambarı sistemleri, bilgi alma, görselleştirme, algoritmalar, yüksek performanslı bilgi işlem ve birçok uygulama alanı gibi diğer alanlardan pek çok tekniği birleştirmiştir. Veri madenciliği araştırma ve geliştirmesinin disiplinler arası yapısı, veri madenciliğinin başarısına ve kapsamlı uygulamalarına önemli ölçüde katkıda bulunmaktadır. Yazının bu bölümünde veri madenciliği yöntemlerinin gelişimini güçlü bir şekilde etkileyen çeşitli disiplinlerden örnekler vermekteyiz.

İstatistik

İstatistik, verilerin toplanmasını, analizini, yorumlanmasını, açıklanmasını ve sunumunu inceler. Veri madenciliği istatistikle içsel bir bağlantıya sahiptir. İstatistiksel bir model, bir hedef sınıftaki nesnelerin davranışlarını rassal değişkenler ve bunlarla ilişkili olasılık dağılımları açısından tanımlayan bir matematiksel fonksiyon kümesidir. İstatistiksel modeller, veri ve veri sınıflarını modellemek için yaygın olarak kullanılmaktadır.

Örneğin, veri karakterizasyonu ve sınıflandırması, istatistik gibi veri madenciliği görevlerinde hedef sınıf modelleri oluşturulabilir. Başka bir deyişle bu istatistiksel modeller bir veri madenciliği görevinin sonucu olabilir. Alternatif olarak veri madenciliği görevleri istatistiksel modellerin üzerine inşa edilebilir. Örneğin, gürültüyü ve eksik veri değerlerini modellemek için istatistikleri kullanabiliriz. Daha sonra büyük bir veri kümesindeki madencilik modelleri, veri madenciliği süreci, verideki gürültülü veya eksik değerleri saptamaya ve işlemeye yardımcı olmak için modeli kullanabilir.

İstatistiksel araştırma, veri ve istatistiksel modeller kullanarak tahmin yapmayı ve tahmin için araçlar geliştirir. İstatistiksel yöntemler, bir veri koleksiyonunu özetlemek veya tanımlamak için kullanılabilir. İstatistik veriden çeşitli kalıpları çıkarmanın yanı sıra modelleri oluşturan ve etkileyen altta yatan mekanizmaları anlamak için yararlıdır. Çıkarımsal istatistikler (ya da tahmin edici istatistikler) verileri, gözlemlerdeki rastlantısal belirsizliği açıklayacak ve soruşturma altında olan süreç ya da popülasyonla ilgili çıkarımlarda bulunacak şekilde kullanır.

Veri madenciliği sonuçlarını doğrulamak için istatistiksel yöntemler de kullanılabilir. Örneğin, bir sınıflandırma veya tahmin modeli çıkarıldıktan sonra model istatistiksel hipotez testi ile doğrulanmalıdır. Bir istatistiksel hipotez testi (bazen doğrulayıcı veri analizi olarak adlandırılır) deneysel veriler kullanarak istatistiksel kararlar verir. Bir sonucun tesadüfen meydana gelmesi olası değilse istatistiksel olarak anlamlı olarak adlandırılır. Sınıflandırma veya tahmin modeli doğru tutarsa, modelin tanımlayıcı istatistikleri modelin sağlamlığını artırır.

Veri madenciliğinde istatistiksel yöntemlerin uygulanması önemsiz olmaktan uzaktır. Çoğunlukla büyük bir veri seti üzerinde istatistiksel bir yöntemin nasıl ölçeklendirileceğidir büyük bir sorundur. Pek çok istatistiksel yöntem, hesaplamada yüksek karmaşıklığa sahiptir. Bu tür yöntemler, çoklu mantıksal veya fiziksel sitelerde de dağıtılan büyük veri kümelerine uygulandığında, algoritmalar, hesaplama maliyetini azaltmak için dikkatli bir şekilde tasarlanmalı ve ayarlanmalıdır.

Makine Öğrenmesi

Makine öğrenimi bilgisayarların verilere dayalı olarak nasıl öğrenebileceğini (veya performanslarını nasıl geliştireceğini) araştırır. Ana araştırma alanı bilgisayar programlarının karmaşık kalıpları tanımayı otomatik olarak öğrenmesi ve verilere dayanarak akıllı kararlar almasıdır. Örneğin, tipik bir makine öğrenim problemi, bir bilgisayar programlamaktır, böylece bir dizi örnekten öğrendikten sonra el yazısıyla yazılan posta kodlarını otomatik olarak tanımlayabilir. Makine öğrenimi hızlı büyüyen bir disiplindir. Burada veri madenciliği ile son derece ilişkili olan makine öğrenmesinde klasik problemleri açıklanıyor.

  • Denetimli öğrenme temel olarak sınıflandırma ile eşanlamlıdır. Öğrenmedeki denetim, eğitim veri kümesindeki etiketli örneklerden gelir. Örneğin, posta kodu tanıma probleminde, bir dizi el yazısı posta kodu görüntüsü ve bunlara karşılık gelen makine tarafından okunabilen çeviriler, sınıflandırma modelinin öğrenimini denetleyen eğitim örnekleri olarak kullanılır.
  • Denetimsiz öğrenim aslında kümelenme ile eşanlamlıdır. Giriş örnekleri sınıf etiketli olmadığından öğrenme süreci denetimsizdir. Genellikle veri içindeki sınıfları bulmak için kümeleme kullanılabilir. Örneğin, denetlenmeyen bir öğrenme yöntemi girdi olarak, el yazısıyla yazılmış rakamların bir dizi görüntüsünü alabilir. 10 tane veri kümesini bulduğunu varsayalım. Bu kümeler sırasıyla 0 ila 9 arasındaki 10 ayrı haneye karşılık gelebilir. Ancak, eğitim verileri etiketlenmediğinden öğrenilen model bize bulunan kümelerin anlamsal anlamını söyleyemez.
  • Yarı gözetimli öğrenme, bir model öğrenirken hem etiketlenmiş hem de etiketlenmemiş örneklerin kullanılmasını sağlayan bir makine öğrenme teknikleri sınıfıdır. Bir yaklaşımda, sınıf modellerini öğrenmek için etiketli örnekler kullanılır ve etiketlenmemiş örnekler, sınıflar arasındaki sınırları iyileştirmek için kullanılır.
  • Aktif öğrenme, kullanıcıların öğrenme sürecinde aktif rol oynamalarını sağlayan bir makine öğrenme yaklaşımıdır. Bir aktif öğrenme yaklaşımı, bir kullanıcı (örneğin, bir alan uzmanı) için bir etiketlenmemiş örneklerden ya da öğrenme programı tarafından sentezlenebilen bir örneği etiketlemesini isteyebilir. Amaç, etiketleme için kaç örnek verilebileceğine dair bir kısıtlama göz önüne alındığında, insan kullanıcılarından aktif olarak bilgi edinerek model kalitesini optimize etmektir.

Veri Tabanı Sistemleri ve Veri Ambarı

Veritabanı sistemleri araştırması, kuruluşlar ve son kullanıcılar için veritabanlarının oluşturulması, bakımı ve kullanımı üzerine odaklanır. Özellikle, veri tabanı sistemleri araştırmacıları veri modellerinde, sorgulama dillerinde, sorgulama ve optimizasyon yöntemlerinde, veri depolamada, indeksleme ve erişim yöntemlerinde oldukça kabul görmüş ilkeleri oluşturmuştur. Veri tabanı sistemleri, çok büyük ve nispeten yapılandırılmış veri kümelerinin işlenmesinde yüksek ölçeklendirildikleri için genellikle iyi bilinir.

Birçok veri madenciliği görevi, büyük veri kümelerini veya hatta gerçek zamanlı, hızlı veri akışı verilerini işlemek zorundadır. Bu nedenle, veri madenciliği, büyük veri kümelerinde yüksek verimlilik ve ölçeklenebilirlik sağlamak için ölçeklenebilir veritabanı teknolojilerinden faydalanabilir. Ayrıca, veri madenciliği görevleri, gelişmiş kullanıcıların gelişmiş veri analizi gereksinimlerini karşılamak için mevcut veritabanı sistemlerinin kapasitesini genişletmek için kullanılabilir.

Yazıyı Puanla

Bir önceki yazımız olan Yapay Zeka Algoritmaları başlıklı makalemizde algoritma, yapay zeka ve yapay zeka algoritmaları hakkında bilgiler verilmektedir.

Yazar Hakkında

Abdulkadir Turan

Abdulkadir Turan

Karadeniz Teknik Üniversitesi'nde İstatistik ve Bilimleri'nde okuyorum. Sanat, Tasarım ve Teknoloji üzerine yazılar yazıyorum.

Bir Cevap Yaz