Veri Madenciliğine Başlarken

Günümüzde daha önce hiç görülmemiş ölçekte bilgi topluyoruz. İnsanoğlunun tarihine baktığımız zaman gündelik yaşamda bu bilgilerin kullanımına daha fazla önem verilmeye başlandı. Bilgisayarlarımızdan web sayfalarını başka dillere çevirmesini, hava durumunu tahmin etmesini, istediğimiz kitapları önermesini ve sağlık sorunlarımızı teşhis etmesini bekliyoruz. Bu beklentiler hem uygulama sayısı hem de beklediğimiz etkinlik bakımından artacaktır. Veri madenciliği, bilgisayarları veri ile karar vermek için eğitmek ve günümüzün birçok yüksek teknoloji sistemlerinin bel kemiğini oluşturmak için kullanabileceğimiz bir metodolojidir.

Neden Veri Madenciliği?

Veri madenciliği ya da bilgi keşfi, bilgisayar destekli muazzam veri kümelerini incelemek, analiz etmek ve sonra da bu verilerden anlam çıkarmaktır. Veri madenciliği araçları, işletmelerin proaktif, bilgi odaklı kararlar almasına olanak tanıyan davranışları ve gelecekteki eğilimleri öngörür. Veri madenciliği araçları, geleneksel olarak çözmek için çok fazla zaman harcayan iş sorularını yanıtlayabilir. Veri madenciliği yaparak veritabanları araştırılıyor ve uzmanların kaçırabileceği tahmin edici bilgiler bulunabiliyor. Veri madenciliği adını, büyük bir veritabanında değerli bilgiler aramakla, değerli bir cevher damarı için bir dağ kazımak arasındaki benzerlikten alır. Her iki süreç de muazzam miktarda malzemeden süzülmeyi veya değerin nerede bulunduğunu bulmak için akıllıca araştırmayı gerektirir.

Bilgi Çağına Doğru

Bilgi çağında yaşıyoruz” popüler bir deyimdir; ancak doğrusu aslında veri çağında yaşıyoruzdur. İnternette her gün iş, toplum, bilim, mühendislik, tıp ve günlük hayatın hemen hemen her yönünden terabaytlar veya petabaytlar kadar veri oluşturuluyor. Mevcut veri hacmindeki bu artış toplumun bilgisayarlaşmasının, güçlü veri toplama ve depolama araçlarının hızla geliştirilmesinin bir sonucudur.

Dünya çapındaki şirketler satış işlemleri, hisse senedi alım satım kayıtları, ürün tanımları, satış promosyonları, şirket profilleri ve müşteri geribildirimi gibi devasa veri setleri üretir. Örneğin, Carrefour gibi büyük mağazalar dünya çapında binlerce şubede haftada yüz milyonlarca işlem gerçekleştirmektedir. Bilimsel ve mühendislik uygulamaları, süreç ölçümü, bilimsel deneyler, sistem performansı, mühendislik gözlemleri ve çevre gözetimi olmak üzere sürekli olarak yüksek veriler üretiliyor.

Küresel telekomünikasyon ağları her gün onlarca petabyte veri trafiği taşır. Tıbbi ve sağlık endüstrisi ise tıbbi kayıtlardan, hasta izlemeden ve tıbbi görüntülemeden muazzam miktarda veri üretir. Arama motorları tarafından desteklenen milyarlarca Web araması her gün petabaytlarca veriyi işliyor. Topluluklar, sosyal medya, dijital fotoğraf ve videolar, bloglar, Web toplulukları ve çeşitli sosyal ağlar giderek daha önemli veri kaynakları haline gelmiştir. Büyük miktarda veri üreten kaynakların listesi sonsuzdur.

Hızlı bir şekilde büyüyen, geniş çaptaki bu devasa veri kümesi zamanımızı gerçekten veri çağına dönüştürüyor. Verimli bilgileri büyük miktarlarda otomatik olarak ortaya çıkarmak ve bu bilgileri organize bilgiye dönüştürmek için güçlü ve çok yönlü araçlara ihtiyaç vardır. Bu gereklilik, veri madenciliğinin doğmasına yol açmıştır. Çağımızın bu yeni alanı genç, dinamik ve umut vericidir. Veri madenciliği, bilgi çağından, gelecek bilgi çağına doğru yolculuğumuzda büyük adımlar atmamızı sağlayacaktır.

Veri madenciliği, geniş bir veri topluluğunu bilgiye dönüştürür. Bir arama motoru (ör. Google), her gün yüz milyonlarca sorgu alır. Her sorgu kullanıcının kendi bilgi gereksinimini açıkladığı bir işlem olarak görülebilir. Bir arama motoru zaman içinde kullanıcılardan toplanan çok sayıda sorgudan ne kadar yeni ve yararlı bilgi edinebilir? İlginç bir şekilde kullanıcının arama sorgularında bulunan bazı kalıplar veri öğelerini tek tek okuyarak elde edilemeyen paha biçilmez bilgileri de açıklayabilir.

Grip ile ilgili bilgi arayanların sayısı ile grip semptomları olan kişilerin sayısı arasında yakın bir ilişki bulunmuştur. Griple ilgili tüm arama sorguları toplandığında bir desen ortaya çıkar. Google arama verilerini kullanarak, grip trendleri, grip etkinliğini iki haftaya kadar daha hızlı bir şekilde tahmin edebilir. Bu örnek veri madenciliğinin geniş bir veri koleksiyonunu, mevcut küresel zorluğun karşılanmasına yardımcı olabilecek bilgiye nasıl dönüştürebileceğini göstermektedir.

Bilgi Teknolojisinin Evrimi Olarak Veri Madenciliği

Veri madenciliği, bilgi teknolojisinin doğal gelişimi sonucunda görülebilir. Veri tabanı ve veri yönetimi endüstrisi, birçok kritik işlevselliklerin gelişiminde gelişmiştir. Veri toplama ve veri tabanı oluşturma mekanizmalarının erken gelişimi, veri depolama ve alma, ayrıca sorgulama ve işleme için etkili mekanizmaların daha sonra geliştirilmesi için bir ön koşul olarak hizmet etmiştir.

1960’lardan beri veritabanı bilgi teknolojisi, ilkel dosya işleme sistemlerinden sofistike ve güçlü veri tabanı sistemlerine sistematik olarak evrildi. 1970’li yıllardan beri veritabanı sistemlerinde araştırma, geliştirme, hiyerarşik veri tabanı sistemlerinden ilişkisel veri tabanı sistemlerine, veri modelleme araçlarına ve dizin oluşturma, erişim yöntemlerine ilerlemiştir. Ayrıca, kullanıcılar sorgu dilleri, kullanıcı arabirimleri, sorgu optimizasyonu ve işlem yönetimi yoluyla uygun ve esnek veri erişimi elde ettiler. Bir sorgunun salt okunur bir işlem olarak görüldüğü çevrimiçi işlem işleme için etkin yöntemler, büyük miktarda veriyi verimli bir şekilde depolama, alma ve yönetme için önemli bir araç olarak ilişkisel teknolojinin evrimine ve geniş çapta kabulüne büyük katkıda bulundu.

Gelişmiş veri tabanı sistemleri 1980’lerin ortalarından itibaren yapılan araştırmaların artmasından kaynaklandı. Bu sistemler genişletilmiş ilişkisel, nesne yönelimli, nesne-ilişkisel ve tümden gelimli modeller gibi yeni ve güçlü veri modelleri içermektedir.

Gelişmiş veri analizi, 1980’lerin sonundan itibaren ortaya çıktı. Geçtiğimiz otuz yılda bilgisayar donanımı teknolojisinin istikrarlı ve göz kamaştırıcı düzeyde ilerlemesi, güçlü ve uygun fiyatlı bilgisayarların, veri toplama ekipmanlarının ve depolama ortamlarının büyük miktarda tedarik edilmesine yol açtı. Bu teknoloji veri tabanı ve bilgi endüstrisine büyük bir destek sağlar.

1990’larda, World Wide Web ile beraber web tabanlı veritabanları (ör. XML veritabanları) görünmeye başladı. WWW ve çeşitli birbirine bağlı heterojen veri tabanları gibi internet tabanlı küresel bilgi tabanları, bilgi endüstrisinde hayati bir rol oynamıştır. Bilgi alma, veri madenciliği ve bilgi ağı analiz teknolojilerinin entegrasyonu ile bu gibi farklı veri formlarından elde edilen verilerin etkili ve verimli bir şekilde analiz edilmesi zor bir görevdir.

Özet olarak verilerin bolluğu güçlü veri analizi araçlarına duyulan ihtiyaç ile birleştiğinde, veri zengini olarak nitelendirilmiş ancak bilgi yetersizliği olarak tanımlanmıştır. (Şekil 2.4.1) Çok sayıdaki veri havuzunda toplanan ve depolanan bu veriler hızlı büyümektedir. Bu muazzam miktarda veriyi, güçlü araçlara sahip olmadan kavramak insan yeteneğimizi çok aştı. Sonuç olarak büyük veri havuzlarında toplanan bu veriler “veri mezarları” haline gelir. Önemli kararlar genellikle veri havuzlarında saklanan bilgi bakımından zengin verilere değil karar vericinin sezgisine dayanır çünkü karar vericinin çok miktarda veriye gömülü değerli bilgiyi ayıklamak için araçları yoktur.

Veri Madenciliği Nedir?

Veri madenciliğinin disiplinler arası bir konu olarak pek çok farklı şekilde tanımlanabilmesi şaşırtıcı değildir. Diğer birçok terimin veri madenciliğine benzer bir anlamı vardır. Veriden bilgi madenciliği, bilgi çıkarımı, veri / desen analizi, veri arkeolojisi ve veri taraması bunlara örnek olarak verilebilir. Pek çok kişi veri madenciliğini bir başka popüler olarak kullanılan terimle, veriden bilgi keşfiyle veya KDD (Knowledge Discovery in Databases-Veritabanlarından bilgi keşfi) ile eşanlamlı olarak ele alırken, diğerleri veri madenciliğini yalnızca bilgi keşif sürecinde önemli bir adım olarak görür. Bilgi keşfi süreci aşağıdaki adımların yinelemeli bir dizisi olarak gösterilmiştir:

  1. Veri temizleme (Tutarsız verilerin kaldırılması)
  2. Veri entegrasyonu (Birden fazla veri kaynağının birleştirilebilmesi)
  3. Veri seçimi
  4. Veri dönüşümü (Verilerin formlara dönüştürüldüğü yer)
  5. Veri madenciliği (Akıllı yöntemlerin ayıklamak için uygulandığı önemli bir süreç)
  6. Desen değerlendirmesi (Bilgiyi gerçekten temsil eden ilginç desenleri tanımlamak)
  7. Bilgi sunumu (Görselleştirme ve bilgi gösterimi teknikleri)

1’den 4’e kadar olan aşamalar verilerin madencilik için hazırlandığı farklı veri ön işlem formlarıdır. Veri madenciliği adımı kullanıcı veya bilgi tabanı ile etkileşime girebilir. İlginç desenler kullanıcıya sunulur ve bilgi tabanında yeni bilgi olarak saklanabilir.

Bununla birlikte, endüstride, medyada ve araştırma ortamında, veri madenciliği terimi genellikle tüm bilgi keşif sürecine atıfta bulunmak için kullanılmaktadır (belki de terim verilerden bilgi keşfinden daha kısa olduğu için). Bu nedenle veri madenciliğinin işlevselliğinin geniş bir görünümünü benimseriz: Veri madenciliği büyük miktarlardaki verilerden ilginç desenleri ve bilgileri keşfetme sürecidir. Veri kaynakları, veritabanlarına, veri ambarlarına, Web’e, diğer bilgi havuzlarına veya sisteme dinamik olarak aktarılan verileri dinamik olarak içerebilir.

Bir Cevap Yaz