BIG DATA NEDİR NE DEĞİLDİR?
Veri
kavramının tanımını ilk duyduğumdan beri bu konuya bir gün olsun duyarsız
kalamayan ben eğitim hayatım boyunca da hep bu kavram üzerinde durdum, düşündüm
ve çalıştım. Veri yapıları, veritabanları, veri ambarı, veri madenciliği, metin
madenciliği, veri keşfi ve veri analizi derken son dönemde bir de büyük veri
kavramı ortaya çıktı. Bize de doğal olarak onu anlama ve üzerine çalışma görevi
düştü.
1993 yılında
tanıştığımız veri kavramıyla ilk münasebetimiz program kodları içerisinde doğru
değişken tanımını yapmakla başladı. Atomik değişkenler yetmediğinde veri
yapılarının nasıl kullanılacağı ve devamında verilerin dosyalarda ve diskte
nasıl organize edileceğini öğrendik ve uyguladık. 1995 yılı Veritabanlarına
Giriş dersini alıp da bu alanda çalışmaya karar kıldığım yıl oldu. Bitirme çalışmamız
bir Veritabanı uygulaması oldu: Dingil 1. 0. Şu an ülkemizin önemli
firmalarında mühendis olarak çalışan arkadaşlarla birlikte yaptığımız bu veri
yoğun yazılım ilk ciddi veriye dayalı işimiz oldu. Devamında yüksek lisans ve
doktorada veri merkezli çalışmalarımız. Yüksek lisansta web üzerinde veritabanı
çalışarak INTERNETTE KÜTÜPHANE isimli tezimi yaptım. Doktora konum ise tam
anlamıyla bir veri madenciliği çalışmasıydı: KARAKTER TABANLI DOKÜMAN DİLİ
TANIMA SİSTEMİ TASARIMI. Eğitim almanın devamında eğitim verme aşamasına
geldiğimde de isminde Veri olan bütün dersleri özenle yıllarca ben verdim ve
vermeye devam ediyorum.
2005 yılında
doktorayı bitirdiğimizde bizim veriye merakımızı gören TÜBİTAK sağ olsun bize
veriye dayalı birçok projede hakemlik görevi verdi, vermeye devam ediyor, ben
de zevkle görev yapıyorum. Bu görevler sırasında gördüğümüz olumlu, olumsuz
örnekler bence çok değerli. Bu örnekler üzerinden halkımızın bu konuları ne
denli anlayıp ne denli anlamadığını görme fırsatımız oluyor. Örneğin, 2005
yılında ilk hakemlik yapmaya başladığım yıllarda henüz Big Data konusu yoktu
ama o zamanlar Veri Madenciliği gündemdeydi ve alanla ilgili çok sayıda proje
önerisi önüme geliyordu. Ben o zaman şunu görmüştüm; firmaların çoğu İstatistik
bile yapmadan Veri Madenciliği yaptığını iddia ediyor. Acaba neden insanlar
İstatistik bile yapamazken Veri Madenciliği yaptığını iddia eder diye düşünürken
aklıma şu geldi; “Veri madenciliği sihirli sözcüktür ve bu sözcükle proje kabul
edilebilir”. Kabul edildi mi, en azından bana gelenler edilmedi J
Aradan yıllar
geçti ve insanlar sonunda veri madenciliği projeleri yapmayı öğrendiler. Bu sefer
de Web Madenciliği, log (günlük) madenciliği gibi konular gündeme geldi. Log kayıtlarının
güvenliğini sorduğumuzda çok cevap alamadık genellikle. Log kayıtlarının
birleştirilmesi de cevapsız kaldı.
Metin
madenciliği kulağa hoş gelmeye başladı. Ben de çok sevindim bu işe, çünkü
doktora tezim veri madenciliği kadar metin madenciliği ile de alakalıydı. Doğal
dil dedik cevap alamadık, muğlaklık gidermeyi hiç soramadık. O konu kapanmadan
bu sefer sentiment analiz. Olumlu ve olumsuz tamam ya nötr durumları nasıl
bulursunuz dediğimizde onu bile yapan fazla çıkmadı.
Bütün bunları
neye mi anlatıyorum, cevabı basit ve kısa. Yine insanlar moda bir kavram
buldular kendilerine ve yine ıskalamaya devam ediyorlar da o yüzden. Sadece proje
heveslileri ıskalasa neyse wikilerde bile çok doğru olmayan şeyler var. Diyor
ki wiki hazretleri “…yaygın
bilişimci inanışına göre, yapısal olmayan veri, değersizdi” ben de diyorum ki hadi oradan. Yapısal olmayan verinin bütün veriler
içerisinde %90 gibi bir veri yığını oluşturduğu ve bu verinin değerlendirilmesi
için de metin madenciliği yapıldığını sağır bilişimci bile bilir. Yine aynı
wiki bir yerlerinde mevcut ilişkisel veritabanları sanki tutarsız veri
tutuyormuş da big data tutarlı veri tutuyormuş gibi masal okuyor.
Son dönemde
gerek wiki, gerekse konuya balıklama atlayan herkesin iddiası şu “ilişkisel
veritabanları yetersiz kaldığı için big data kullanılacak ve ilişkisel
veritabanları artık önemsizleşecek”. Big data konusunu yeterince anlamayan
kişiler veritabanlarında yıllarca kullanılan özellikleri de big dataya ait gibi
göstererek, veri ambarlarında çözülmüş olan farklı veri kaynaklarının
birleştirilmesini de big dataya ait gibi göstererek sadece cehaletlerini ortaya
koyuyorlar.
Bize göre
big data, son dönemde artan veri kaynaklarına paralel olarak bunların entegre
edilmesi, toplam veriden ortak bir bilgi çıkarılması ve bu iş yapılırken de
bugüne kadar geliştirilmiş bütün veri analiz tekniklerinin birlikte
kullanılması sürecidir. Big data eskiyi yıkıp üzerine bir şey inşa etmek değil,
sadece yatay giden sorgulamaya dikey özellik katan, toplu işleme mantığı ile
işlemleri ele alan, aynı anda paralel işleme ile sonuç elde eden yeni bir veri
analiz yöntemidir. Eğer big data yapılacaksa veriyle ilgili olarak verinin
farklı formatlarında çalışmış insanların ortaklığı ile yapılabilecektir. Yoksa bugüne
kadar veri nedir bilmeyen insanların hemen birkaç ayda içine girip çıkabileceği
bir şey değildir. Moda bir tabir olabilir ama moda gibi hafif bir konu
değildir.
Hidayet Takcı
Cumhuriyet
Üniversitesi Bilgisayar Mühendisliği Bölümü
Yazılım
Anabilim Dalı Başkanı
0 (346) 219 10 10 / 24 62
Yorumlar
Yorum Gönder