X

Veri Madenciliğinde Ne Tür Verilerle Çalışılır?

Genel bir teknoloji olarak veri madenciliği, veriler bir hedef uygulama için anlamlı olduğu sürece her türlü veriye uygulanabilir. Madencilik uygulamaları için en temel veri formları veri tabanı verileri, veri ambarı verileri  ve işlem verileridir. Veri madenciliği diğer veri formlarına da uygulanabilir (ör. Veri akışları, sıralı veriler, grafik veya ağa bağlı veriler, uzamsal veriler, metin verileri, multimedya verileri ve web verileri).

Veritabanı Verileri

Veri tabanı yönetim sistemi olarak da adlandırılan bir veritabanı sistemi, veri tabanı olarak bilinen birbiriyle ilişkili verilerden, verilerin yönetilmesi ve erişilmesi için bir dizi yazılım programından oluşur. Yazılım programları, veritabanı yapılarını ve veri depolamayı tanımlamak için mekanizmalar sağlar. Bu sistemler eşzamanlı, paylaşımlı, dağıtılmış veri erişimini belirlemek ve yönetmek içindir. Aynı zamanda sistem çökmelerine veya yetkisiz erişim teşebbüslere rağmen depolanan bilgilerin tutarlılığını ve güvenliğini sağlamak içindir.

İlişkisel veritabanı, her biri benzersiz bir ad atanmış bir tablo koleksiyonudur. Her tablo bir dizi öznitelikten (sütun veya alan) oluşur ve genellikle büyük birtakım tanımlama gruplarını (kayıtlar veya satırlar) depolar. İlişkisel bir tabloda bulunan her bir demet benzersiz bir anahtar tarafından tanımlanan ve bir özellik değerleri kümesi tarafından tanımlanan bir nesneyi temsil eder. Bir varlık-ilişki (ER) veri modeli gibi bir semantik veri modeli, genellikle ilişkisel veritabanları için yapılandırılmıştır. Bir ER veri modeli, veri tabanını bir dizi varlıklar ve onların ilişkileri olarak temsil eder.

İlişkisel veri, ilişkisel bir sorgulama dilinde (ör. SQL) yazılmış veritabanı sorguları veya grafiksel kullanıcı arayüzleri yardımıyla erişilebilir. Belirli bir sorgu, birleştirme, seçim ve yansıtma gibi bir dizi ilişkisel işleme dönüştürülür ve daha sonra verimli işlem için optimize edilir.

İlişkisel veritabanlarını incelerken, eğilimleri veya veri kalıplarını arayarak daha ileri gidebiliriz. Örneğin, veri madenciliği sistemleri müşteri verilerini, yeni müşterilerin kredi riskini, gelirlerine, yaşlarına ve önceki kredi bilgilerine göre tahmin etmek için analiz edebilir. Veri madenciliği sistemleri sapmaları da saptayabilir. Bu tür sapmalar daha sonra araştırılabilir. Örneğin, veri madenciliği, bir ürünün ambalajında veya fiyatındaki bir artışta önemli bir değişiklik olduğunu keşfedebilir. İlişkisel veritabanları en yaygın ve en zengin bilgi depolarından biridir ve bu nedenle veri madenciliği çalışmalarında önemli bir yere sahiptir.

Veri Ambarı Verileri

Straw’in dünya çapında şubeleri bulunan başarılı bir uluslararası şirket olduğunu varsayalım. Her şubenin kendi veri tabanı vardır. Straw‘in başkanı, şirketin üçüncü çeyrek için şube başına ve ürün türü başına bir analiz sunmanızı istedi. Bu özellikle zor bir görevdir çünkü ilgili veriler çok sayıda alanda fiziksel olarak bulunan çeşitli veritabanlarına yayılmıştır.

Straw’in bir veri ambarı varsa bu görev kolay olurdu. Bir veri ambarı, birleşik bir şema altında saklanan ve genellikle tek bir sitede bulunan birçok kaynaktan toplanan bilgi deposudur. Veri ambarları, bir veri temizleme, veri entegrasyonu, veri dönüşümü, veri yükleme ve periyodik veri yenileme işlemiyle oluşturulmaktadır. Şekilde Straw için bir veri ambarı inşaatı ve kullanımı için tipik bir çerçeveyi gösterilmektedir.

Straw için tipik bir veri ambarı çerçevesi

Karar vermeyi kolaylaştırmak için, bir veri ambarındaki veriler ana konular etrafında düzenlenir. Veriler, geçmiş 6 ila 12 ay gibi tarihsel bir bakış açısından bilgi sağlamak için saklanır ve tipik olarak özetlenir. Örneğin, her bir satış işleminin ayrıntılarını depolamak yerine, veri ambarı her mağaza için her bir ürün türü için işlem başına bir özeti saklayabilir veya her satış bölgesi için daha yüksek bir seviyede özetler sunabilir.

Bir veri ambarı genellikle her bir boyutun şemadaki bir öznitelik ya da bir dizi kümeye karşılık geldiği bir veri küpü adı verilen çok boyutlu bir veri yapısı tarafından modellenir. Her bir hücre, sayım ya da toplam gibi birtakım toplam ölçümün değerini depolar. Bir veri küpü çok boyutlu bir veri görünümü sağlar. Özetlenmiş verilerin önceden hesaplanması ve hızlı bir şekilde erişilmesini sağlar.

İşlem Verileri

Bir müşterinin satın alma işlemi, bir uçuş rezervasyonu veya bir kullanıcının bir web sayfasındaki tıklamaları bir işlemdir ve veritabanında saklanır. Bir işlem tipik olarak benzersiz bir işlem kimlik numarası ve işlemin içinde satın alınan öğeler gibi işlemi oluşturan öğelerin bir listesini içerir. Bir işlem veritabanında, ürün açıklaması, satış temsilcisi veya şube hakkında bilgi gibi işlemler ile ilgili diğer bilgileri içeren ek tablolar bulunabilir.

İşlemler, işlem başına bir kayıt ile bir tabloda saklanabilir. Straw için bir işlem veritabanı parçası şekilde gösterilmiştir. İlişkisel veritabanı bakış açısından, şekildeki satış tablosu, iç içe geçmiş bir ilişkidir, çünkü öğe kimlikleri özellik listesi bir öğe kümesi içerir. Çoğu ilişkisel veritabanı sistemleri iç içe geçmiş ilişkisel yapıları desteklemediğinden, işlem veritabanı genellikle Şekil 5’teki tabloya benzer bir biçimde düz bir dosyada depolanır veya tabloya benzer bir biçimde standart bir ilişkiye dönüştürülür.

Straw’de satış için bir işlem veritabanı parçası

Straw‘in bir analisti “Hangi ürünler birlikte iyi satılıyor?” diye sorabilir. Bu tür bir market sepeti veri analiziyle ürün gruplarının satışlarını artırmak için bir strateji geliştirilmesini sağlar. Örneğin, yazıcıların genellikle bilgisayarlarla birlikte satın alındığı bilgisi göz önüne alındığında daha fazla bilgisayar satma umuduyla seçilen bilgisayarları satın alan müşterilere belirli bir indirimle (hatta ücretsiz olarak) belirli yazıcılar sunulabilir. Geleneksel bir veritabanı sistemi piyasa sepeti veri analizini gerçekleştiremez. İşlem verileri üzerindeki veri madenciliği sık sık birlikte satılan ürün kümelerini, yani sık sık birlikte satılan öğeler kümelenerek yapılabilir.

Diğer Veri Türleri

İlişkisel veritabanı verileri, veri ambarı verileri ve işlem verilerinin yanı sıra çok yönlü formlara, yapılara ve daha farklı anlamlara sahip birçok başka veri türü vardır. Bu türden veri birçok uygulamada görülebilir: zamana bağlı veriler (Tarihsel kayıtlar, borsa verileri, zaman dizileri ve biyolojik dizi verileri), veri akışları (Sürekli olarak iletilen video gözetimi ve sensör verileri), mekansal veriler (Haritalar), mühendislik tasarım verileri (Binaların tasarımı, sistem bileşenleri veya entegre devreler), metin ve multimedya verileri (Metin, resim, video ve ses verileri dahil), grafik ve Ağa bağlı veriler (Sosyal medya ve bilgi ağları) ve Web (İnternetle sağlanan yaygın olarak dağıtılmış bilgi deposu). Bu uygulamalar, özel yapıları (Diziler, ağaçlar, grafikler ve ağlar) ve özel semantikleri (sipariş, görüntü, ses ve video içeriği ve bağlantı) gibi verileri nasıl işleyeceğimiz ve nasıl kullanacağımız gibi yeni zorluklar getirir.

Bu tür verilerden çeşitli bilgi türleri çıkarılabilir. Geçici verilerle ilgili olarak, banka trendlerinin, müşteri trafiğinin hacmine göre programlanmasında yardımcı olabilecek trendleri değiştirmek için bankacılık verilerini kullanılabilir. Borsa verileri, yatırım stratejilerini planlamanıza yardımcı olabilecek eğilimleri ortaya çıkarmak için çıkarılabilir (örneğin, Straw için stok satın almak istendiğinde en uygun zaman belirlenebilir). İletim akışlarının anormalliğine dayanan saldırıları saptamak için bilgisayar ağı veri akışları kullanabilir.

Bunlar, kümeleme, dinamik modellerin yapısı veya mevcut sık desenlerle önceki zamanlardakilerle karşılaştırılarak keşfedilebilir.

Ürünle ilgili kullanıcı yorumlarını (genellikle kısa metin mesajları olarak sunulur) inceleyerek, müşteri duygularını değerlendirebilir ve bir ürünün bir pazar tarafından ne kadar iyi bir şekilde karşılandığı anlaşılabilir. Multimedya verilerinden, nesneleri tanımlamak ve semantik etiketler veya etiketler atayarak sınıflandırmak için görüntüler kullanabilir. Bir hokey oyununun video verilerini inceleyerek, hedeflere karşılık gelen video dizileri tespit edebilir. Web madenciliği, genel olarak internet hakkındaki bilgilerin dağıtımı hakkında bilgi edinmemize, web sayfalarını karakterize etmemize, sınıflandırmamıza ve web dinamiklerini farklı web sayfaları, kullanıcılar, topluluklar, web tabanlı faaliyetler arasındaki ilişkileri ortaya çıkarmamıza yardımcı olabilir.

Birçok uygulamada, birden fazla veri türünün mevcut olduğunu akılda tutmak önemlidir. Örneğin, web madenciliğinde, web sayfalarında çoğunlukla metin verileri ve multimedya verileri (örneğin resim ve videolar), web siteleri gibi grafik verileri ve bazı web sitelerinde harita verileri bulunur. Biyoenformatikte genomik diziler, biyolojik ağlar ve genomların üç boyutlu uzamsal yapıları bazı biyolojik nesneler için bir arada bulunabilir. Karmaşık verilerin çoklu veri kaynaklarını analiz etmek genellikle bu tür çoklu kaynakların karşılıklı olarak geliştirilmesi ve konsolidasyonu nedeniyle verimli bulgulara yol açar. Öte yandan veri temizleme ve veri entegrasyonundaki zorlukların yanı sıra, bu verilerin çoklu kaynakları arasındaki karmaşık etkileşimler nedeniyle de zorlayıcıdır.

Bu veriler, verimli depolama, geri alma ve güncelleme için gelişmiş tesisler gerektirirken, aynı zamanda verimli bir zemin sağlar ve veri madenciliği için zorlu araştırma ve uygulama konularını gündeme getirir.

Yazıyı Puanla

Bir önceki yazımız olan Yapay Zeka Algoritmaları başlıklı makalemizde algoritma, yapay zeka ve yapay zeka algoritmaları hakkında bilgiler verilmektedir.