Örneklerle Veri Madenciliği

veri-madenciligi
Veri Madenciliği konusuna girmeden önce bazı kavramları ve bu kavramlar arasındaki farkları bilmekte yarar vardır. İlk olarak Veri ile Bilgi eş anlamlı kelimeler değildir. Veri: Ham (işlenmemiş) gerçek ya da Enformasyon (malumat) parçacığına verilen isimdir. Bilgi: Türk Dil Kurumu tarafından “insan aklının erebileceği olgu, gerçek ve ilkelerin bütünü” olarak tanımlanmaktadır. Veri Madenciliği ise büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir.

– Veri Madenciliği Ne Amaçlarla Kullanılır?
Veri Madenciliği bir çok alanda elzem (çok gerekli) bilgilere ulaşmak için kullanılır. Bu bilgiler “bir ülkeye tehtit unsuru oluşturabilecek kişilerin gözlemlenmesinden” tutun da “firmaların pazarlama stratejilerini belirlemesinde” kullanılır. Örneğin Amerika Birleşik Devletlerinde (her ne kadar inkar edilse de) FBI’ın Siber Güvenlik birimi ABD’de yaşayan insanların gönderdiği e-postalardan tutun da sosyal ortamlarda paylaştığı durum güncellemelerine kadar her bir bilgiyi takip ederek, belli süzgeçlerden geçirerek gözetim altına alabiliyor. Başka bir örnek verecek olursak her gün milyonlarca atılan twit’ler markalar tarafından izlenip beğenilen/beğenilmeyen ürünleri üzerine derin araştırmalar yapıp piyasaya sürecekleri yeni ürünler için bir rota belirleyebiliyorlar. Bir başka örnek ise Facebook firmasının yaptığı milyonlarca insanın (1 Milyarın üzerinde üyesi olan bir firma güçlüdür) “kişisel verilerinin” pazarlanmasıdır. İnsanların beğendikleri sayfaları, yaş grupları, yaptıkları yorumlar vb bir çok kişisel bilgilerin belli bir düzende bir süzgeçten geçirilip bir firmaya bu kişilerin facebook profil sayfalarında ilgili markaların reklamlarının yapılması da bir Veri Madenciliği örneği olarak gösterilebilir.

– Veri Madenciliği Nasıl Yapılır?

  • Veri Madenciliği’nin yapılabilmesi için ilk olarak erişilmek istenen bilgi ya da bilgiler belirlenmelidir.
  • Ardından istenilen bilgi ve bilgiler sınıflandırılmalıdır.
  • Yapılan Sınıflandırmanın ardından İşlenecek olan Veri Tabanı ya da Veri Tabanları belirlenmelidir.
  • Belirlenen Veri Tabanlarında istenmeyen veriler olabilir. Bu verilerin elimine edilmesi (temizlenmesi) gerekir.
  • Veri Tabanları gereksiz verilerden arındırıldıktan sonra elde kalan veriler tek bir Veri Tabanında toplanmalıdır.
  • İstenen bilgi ile alakalı verileri topladığımız Veri Tabanında yapılacak olan analiz için gerekli veriler seçilmelidir.
  • Elimizdeki veri tabanının “işlenebilecek” hale getirilmesi gerekmektedir.
  • Akıllı metodların kullanılarak işlenebilen Veri Tabanında örüntü araması yapılmalıdır.
  • Bulunan veri örüntüleri değerlendirilmelidir.
  • Örüntülerin değerlendirilmesi sonucunda elde edilen bilgiler artık kullanıcıya sunulabilir.

    – Bir Veri Madenciliği Örneği
    Benim hakkımda google’da sadece ismimi aratarak bir çok bilgiye ulaşabilirsiniz, ancak yine de kendim hakkında bir kazı başlatmak istiyorum.

    Adım 1: Elimizde sadece twitter hesabımın olduğunu varsayalım: https://twitter.com/cakirturk. Bu adresten hakkımda bir çok bilgiye nasıl ulaşabileceğinizi göreceksiniz.

    Adım 2: Twitter’daki bio kısmını inceleyelim: Ktü Bilgisayar Mühendisliği yazıyor. Üniversite ve bölüm bilgisi elde ettik. Ancak hala tam bir isime kavuşamadık, çünkü isim kısmında H²Ç ve takma isim kısmında @cakirturk yazıyor.
    Bu 2 adımda hedefimizi belirledik.

    Adım 3:
    Araştırma yapılacak Veri Tabanları: Türkiye’de 30+ milyon facebook kullanıcısı mevcut. Yani Facebook kullanma ihtimalim %50 civarı. İlk veri tabanımız Facebook olacaktır. Ancak “isim soyisim” bilgisi henüz elimizde olmadığından henüz Facebook’u kullanamıyoruz. Twitter sayfamda 21.000 adet twit var, bu twitlerin incelenmesi epey zaman alacağından ve tam bir örüntü oluşturma ihtimali düşük olduğundan farklı bir Veri Tabanı kullanmamız gerekmektedir.

    Adım 4: Twitter’da paylaştığım resimlerin “Exif bilgileri”nin sonucunda Nokia N8 cep telefonu kullandığım bulunabilir.

    Adım 5: İnternet ortamındaki verilerin saklandığı en büyük veri tabanı “Google” amcaya bir danışalım. Elimizde isim yoktu ancak bir profil resmi mevcut: https://si0.twimg.com/profile_images/2976371518/d97b37d914edf54f7d2d3586693718d6.jpeg. Bu resmi google görsel aramalarında aratalım. Örnek arama için tıklayınız.

    Adım 6: İşte bu! Bir profil resminden yola çıkıp 4 sayfalık bir google arama sonucuna indirgedik “resimle alakalı olan Google veri tabanını”. Sonuçları incelediğimizde karşımıza: hasanhuseyincakir.com.tr diye bir site geliyor bu resmin barındığı. Bu siteyi açtığımızda İsmin “Hasan Hüseyin Çakır” olduğunu anlıyoruz ancak bu yeterli değil, bu sitede incelemelere devam etmemiz gerekiyor çünkü twitter’daki profil ile eşleşme sayısı önemli. İsmin altında yer alan “Bilgisayar Mühendisliği Öğrencisi” ve twitter’a verilen link bu ismin gerçek olduğunu ispatlıyor.

    Adım 7: Artık isim elimizde mevcut. Bu isimden ya da sitedeki verilerden yola çıkarak “facebook profil”ime erişilebilir. Sıra Facebook adresimdeki verilerin irdelenmesine geldi, Uzun uzadıya açıklamak istemiyorum, Beğendiklerim kısmından Trabzonsporlu olduğum, Yaşadığı yer kısmından Trabzonda yaşadığım gibi bir çok bilgi elde edilebilir.

    Adım 8: Google’ın veri tabanında biraz daha derine arama yapabiliriz. Google’da site:ktu.edu.tr “hasan hüseyin çakır” şeklinde bir arama yaparak http://ceng.ktu.edu.tr/index.php?l=tr&pid=13&p=mikrolab adresindeki Mikroişlemciler Laboratuarı sayfasından A9 grubunda olduğum ve 196483 nolu öğrenci olduğum ortaya çıkar.

    Adım 9: Adım 6’da bulduğumuz siteye ait alan adı’nı irdelemeye devam edip diğer bilgilerime de ulaşmak mümkün. Bunun için bir whois sorgusu çekmek yeterli: http://who.is/whois/hasanhuseyincakir.com.tr adresinde “hasanhuseyin@cakirturk.net” diye bir e-posta adresine “0536 446 0099” şeklinde bir cep telefonu numarasına ulaşılabiliyor.
    Not: Whois sorgusunda geçen E-posta adresim, cep numaram ve adresim geçerli değildir, bana ulaşabileceğiniz e-posta adresim: hhc@hasanhuseyincakir.com.tr dir.

    Örnek Sonucunda:
    Hedef: https://twitter.com/cakirturk adresindeki kişiye ait erişilebilen tüm veriler.
    İsim: Hasan Hüseyin Çakır
    Eğitim: Karadeniz Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü
    Öğrenci No: 196483
    Takımı: Trabzonspor
    Beğendiği Markalar: Nokia, Adidas, Nike, Symbian vs vs
    E-posta: hhc@hasanhuseyincakir.com.tr
    Cep Tel: 0536 446 0099 (gerçek değildir)
    Adres: Çarşıbaşı (Burada yaşamıyorum, memleketim)

    Şeklinde listeleyebileceğimiz bilgileri Google, Facebook ve hasanhuseyincakir.com.tr’yi veri tabanı olarak kabul ettik ve kazıp çıkarttık.

    Bu Sonuçlardan Varılabilecek Bazı Kanılar:
    – Trabzonspor ve Nike hayranı, Trabzonspor forması alma ihtimali: %76
    – Nokia N8 kullanıcısı ve Resim çekmeyi seviyor, Nokia 808 PureView satın alma ihtimali: %92

    Bu kanılar sayesinde facebook önüme “Spor Mağazası ve Nokia marka telefon reklamları” sunuyor. Google Adsense ile gelir sağlayan websitelerinde yine benzer reklamlar dönüyor gibi.

    Her defasında bu verilerin el ile işlenmesi çok büyük zamanlar gerektirir ve istenilen bilgi / hedef sadece 1 tane olmayabilir. İşte bu yüzden “Veri Madenciliği Sistemleri” geliştirilmiştir. Ancak bu sistemler benim 8 adımda ulaştığım bilgilere bu kadar kolay ulaşamayabilir. Çünkü bu tarz sistemlerin geliştirilmesi maddi anlamda ciddi finansmanlara ihtiyaç duyar. Örnekle açıklayacak olursam 1000 farklı twitter kullanıcısına ait bu bilgilere 1 saat içinde ihtiyacımız olsun, elimizde ise sadece 1 adet kişisel bilgisayar olsun. Elimizdeki donanım + yazılım ile 1 dakikada 2 adet profili inceleyebildiğimizi varsayarsak 1 saatte ancak 120 profili tanımlayabiliriz. Ancak bu yazılımı Sunucular üzerinde paralel koşarsak (maddi anlamda ciddi yatırım gerektirir) sunucuların özelliklerine göre çok daha kısa süre içerisinde istenen tüm verilere ulaşılır. Sadece donanımsal olarak değil bu sistemlerin yazılımsal olarak da büyük maddi yükleri vardır. Hatta donanımdan daha da fazla harcama yapmak gerekir. Facebook firmasının bu verileri işleyebilecek bir sistem yaratmak için yüzlerce Bilgisayar, Yazılım, Bilgi Teknolojileri vb Mühendisi çalıştırdığını söylememe gerek yoktur herhalde.

    – Bir Veri Madenciliği Sisteminde Olması Gereken Bileşenler
    Veri Tabanı: Ulaşılacak bilginin bulunduğu Veri Uzayı olarak adlandırabiliriz
    Veri Tabanı Teknikleri: Alakalı verileri işlenebilecek hale getirecek olan teknikler
    Bilgi Tabanı: Alakalı verilerin saklandığı ortam
    Veri Madenciliği Motoru: Karar verme mekanizmaları, Yapay Zeka ve Yapay Sinir Ağları bilgisi gerektirir. Bilgisayarın karar verebilmesi için bilgisayara eğitim verilmelidir.
    Örüntü Değerlendirme: İstenen bilgiye ulaşmamızı sağlayacak olan kısımdır.
    Kullanıcı Arayüzü: İstenen bilginin girileceği ve bilgisayarın geri döndürdüğü cevapların sunulacağı kısımdır.

    Sonuç olarak Veri Madenciliği bir çok alanda işe yarar bir teknoloji olarak kullanılabilir. Ancak insan hayatının gizliliğini hiçe sayan sonuçlar üretebileceği için kullanılması ahlaki açıdan tartışmalı bir konudur. İnternet ortamında paylaşılan her bir yazının ticari bir karşılığı olduğunu hatırlatıp sözlerimi “İnternet üzerinde bıraktığımız ayak izleri bizleri manipüle edebilecek unsurlar olarak kullanılabilir” diyerek sonlandırıyorum.

  • 4 comments on “Örneklerle Veri Madenciliği

    1. güzel olmuş, öğrendim bişeyler daha, özellikle resim bilgilerini kullanmak ilgimi çekti. Çok dahası var tabi, gizlilik diye bişey yok bununda ayrı bir kanıtı…

      • resim kullanarak gösterdiğim, benim bildiğim yöntemlerden biri, bu ve bunun gibi yüzlerce yöntem vardır…

    2. Pingback: Veri Madenciliği Hakkında | Ktu Bilgisayar Mühendisliği Resmi Günlüğü

    3. cok net aciklanmis. Acaba bana data mining olan ve olmayan iki ornek verebilirmisiz . bununla ilgi bir odev hazirliyorum. yardimci olursaniz sevinirim

    Bir Cevap Yazın

    E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir