Big Data Yazılarım: Bigdata Soruları

Merhaba,

Bugünkü blog yazıma bigdata-hadoop ile ilgili sorulan sorulara ayırmak istedim. Bugüne kadar ki yazılarımda bir tartışma ortamı geçmedi. Benim arzu ettiğim ise bilgi paylaşımıydı. Tartışmak idi. Belki bu blog yazım ile bunu başlatabilirim. Aslında bu sorular ve soruları yanıtlamak çok tehlikeli. Biraz risk alarak yanıtlamaya çalışacağım. Bu nedenle tartışma ortamı çıkacağını düşünüyorum. Sorularım ile ilgili ilgili senaryolar ve hikâyeler anlatmak isterim. Teknik olarak anlatımlardan sonra işin hikâye kısmını anlatma benim için zor. Bu arada işin teknik kısımlarına devam edeceğiz elbette. Blog yazılarım devam edecek yani.

Proje yönetiminde anlatılan en önemli konulardan biri kapsam’ dır. Projenin kapsamı baştan iyi belirlenmişse ve proje süresince kutsal kabul edilip her gelen yeni bir şeyler ekleyip çıkarmazsa, yani çok oynamazsa projelerin başarılı olma olasılığı daha yüksektir. Şimdi diyeceksiniz bigdata sorularından proje yönetimi kapsam’ına nasıl geldik? Aşağıdaki soruların cevapları aslında bigdata kapsamını çok iyi bilmediğimizden sorulmuş sorulardır. Önce kapsam meselesini yani bigdata kapsamını halletmemiz gerekiyor.
Sizlerden ricam lütfen sorularınızı gönderiniz. Eklemek istediğiniz, muhalefet olduğunuz bir yorum vs. varsa lütfen paylaşınız.

Sorulara başlayalım.

Ne Zaman Tüm Sistemler Relational Sistemden Kurtulup Bigdata Ortamına Geçecek?
Bu soru direkt bana hiç sorulmadı. Katıldığım birkaç bigdata etkinliğinde ve toplantılarda geçti. Bu soru aslında temelden yanlış bir soru. Mevcut sistemler ile bigdata arasında bir yarış yoktur ve birbirlerine rakip değillerdir. Rdbms’ in 40 yıldan fazla bir geçmişi vardır. Bigdata’ nın ise herkes tarafından kullanılabilir olması belki 5 yıl bile değildir. İki sistem birbirini destekler. Siz bir muhasebe programı, crm programı, hastane otomasyonu vs.vs. gibi verileri rdbms üzerinde tutabilirsiniz. Ama bir muhasebe programını bigdata ortamında yapalım demeniz doğru değildir. Rdbms sistem ile zaten uzmansınız, neleri onda tuttuğunuzu, program yazdığınızı çok iyi biliyorsunuz. Bigdata ortamında ise işte rdbms sistemde pek tutulması mantıklı olmayan atıyorum log dosyaları, sensor/machine log dosyaları, internet(twitter, blog, rss vs.vs.),video, image, dpi, cdr, call center data vs.vs. şeklinde datalar üzerinde çalışır. Bu güne kadar bu datalar üzerinde çalıştınız mı? İşte bigdata ortamı bu veriler üzerinde çalışması en uygun ortamı size sunar. Bunlar ilişkisel bir database üzerinde tablolar, row ve kolonlar üzerinde tutmanız mantıklı değildir.
Bence kapsam burada da devreye giriyor. Kapsamı iyi bilmediğimizden yanlış sorulmuş bir soru ile karşılaşırız.

Türkiye’ de Böyle Bir Veri Var mı? Daha Doğrusu Proje Var mı?
Soruyu soran kişi aslında böyle projelerin yani bigdata projelerin pek olmayacağını, olmadığını vs. belirtmeye çalışır. Tabi Türkiye ölçütlerinde. log dosyaları,sensor/machine log dosyaları, internet(twitter, blog, rss vs.vs.),video, image, dpi,cdr, call center data vs.vs. datalarını ile bigdata sistemi ilişkilendirildiğinden böyle bir alanın gelişmeyeceği öngörüsü vardır. Çünkü bigdata ile ilgili okunan tüm makalelerde vs. bu işi başlatan google sonra yahoo sonra Doug Cutting adlı mühendisin bu işi yayınlaması ile sadece çok ama çok büyük firmaların kullandığı sistemler olduğu, Türkiye’ de böyle projelerin çok sık olmayacağını öngörmektedirler. Hatta rakamlar korkutur. Yahoo’ da 40 bin makine var, facebook, linkedin, twitter gibi büyük internet firmaları kullanımında ve kullanması gerektiği görüşü vardır. Evet bende 40bin makinalı bir proje bilmiyorum. Ama elinizdeki verinin daha öncesinde değerlendirilip değerlendirilmediğine yani raporlarınızda kullanıp kullanmadığınızı sorgulayınız. Belki o zaman bigdata projeleri artmaya başlayacaktır. Bizdeki bigdata projelerin artması ve başarılı şekilde lanse edilirse bu inancın kırılacağını düşünüyorum. Sanırım biraz erken.
Kapsamı burada da devreye sokalım. Tüm proje kapsamlarınızı rdbms ile ilişkilendirmeyiniz. Her şeyi rdbms üzerinde halletmeye çalışmayın. Alışkanlıkları değiştirmek güçtür. Alışkanlıklar belli bir süre sonra değişmez gerçekmiş gibi görülmeye başlar.

Bigdata Çok mu Hızlı?
İlk bu soruyu duyduğumda afalladığım ve biraz düşündükten sonra cevap verdiğim bir soru idi. Hadi sana x terabayt veri veriyorum at bunu bigdata ortamına ve select çek bakalım. Karşılaştıralım iki sistemi. Öncelikle bu soruyu soran kişiler bu zamana kadar atıyorum oracle-sql server-teradata-db2 gibi sistemleri kullanan, yazılım projelerinde kullandıkları database’ lerdir. Hani hep bir yarış vardır ya! .net mi java mı? Genelde yeni mezun bir iki yıllık tecrübeler ile kullandıkları sistemi fanatikçe savunan arkadaşlar. Buda buna benzer bir soru aslında. Hayır bigdata = hızlıdır demek yanlıştır. Relational database, bigdata ortamından daha hızlıdır demekte yanlıştır. Hatta soruyu soran kişi elimde x database sisteminde şu kadar terabayt veri var. Ve sorgularım x zamanda geliyor. Acaba bigdata kullansam ne kadar zamanda bu sorgu sonuçları gelir? Şu yarıştırma işini bırakalım. Kullandığınız sisteme göre elbette bu değişir. Önceki yazılarımı okudu iseniz distributed çalışma mantığında makine sayı ve özellikleri, namenode bilgisi ve konfigürasyonu, kullandığınız bigdata dağıtımı ve teknolojileri vs. hbase mi? yoksa elastic search mü hatta impala mı stinger mi vs. hangisini kullandınız? Bu soruyu soran hastane otomasyonu uzmanımıza, elinizde hastane otomasyonunda makinalardan gelen log bilgisini günlük kaç kayıt geldi, kaçı error, kaçı info, ne kadarı hangi makine ve modelden geldi ve bunlara anlık bir aksiyon alıyor musunuz ya da hastane otomasyonunuzda röntgen filmleri vs. gibi çıktıları ne yapıyorsunuz sorularına? Biz bu log dosyalarına bakmıyoruz ki! Yada biz hastanın bilgilerini tutuyoruz sadece şeklinde oluyor. Yani çoğu programcı arkadaşımızın yaptığı button click programcılığı yapılıyor. İşte bigdata bunlarla ilgileniyor.
Kapsam içinde hız’ dan ziyade veriler nerede tutulmalı, nerede işlenmeli, nerede sorgulanmalı en mantıklısı hangisi planlanmalıdır.

Appliance Almak Zorunda mıyım?
Hayır. Ama firma olarak stratejik hedeflerinizle uygun olarak artıları ve eksilerine bakmanız gerekmektedir. Appliance nedir peki? Cloudera, Hortonworks, Microsoft HDInsight, Sas Hadoop, IBM Biginsight, Teradata Aster, Intel Hadoop, Oracle Hadoop vs.vs. gibi firmaların tüm hadoop projelerini, yazılımlarını, cihazlarını, hardware’lerini vs.vs. toplayıp size sunan firmalardır. Tabi ki bunlar ücretlidir. Ücret denilince milyon dolarlardan bahsediyorum tabi. Hepsinin artıları fazladır tabi. Her biri kendi sistemleri ile uyumludur. Sorun yaşamazsınız. Hazır fonksiyonları vs. vardır mesela ve gerçekten hayat kurtarıcıdır. Bakımı, yazılım updateleri vs. gibi kısımları bu büyük firmalara bırakırsınız. Bir de bunlardan satın alırsanız size destekleri vardır. Projelerinize yardım ederler danışmanlık verirler. Ama siz efelenip ben appliance almayacağım diyebilirsiniz. O zaman open source olan apache hadoop kullanabilirsiniz. Beleştir yani. Dediğim gibi bu firmanızın stratejik hedefleri ile bağlantılıdır. Bu durumda hadoop ile ilgili belki 30 uygulamayı siz kurarsınız, konfigüre edersiniz, bakımını yaparsanız vs. Eski yazılarımı okudu iseniz: Bu işi yapacak mühendis arkadaşın sistem tarafı iyi olmalı ki kurulum, konfigürasyon vs. yapsın. İyi bir yazılımcı olsun ki gerekirse map-reduce yazsın. İyi bir rdbms-veriambarı tarafı olsun ki sonuçları gerekirse rdbms yazsın. vs.vs. Konuyu uzatmadan işte böyle özellikleri barındıran bir mühendis bulmanız gerekir o zaman. Böyle bir eleman bulmak açıkçası zordur tabi. Bir partner ile çalışmak her zaman iyidir tabi. Peki apache-hadoop neden bakayım o zaman? Aslında arka tarafta neler oluyor, nasıl bu işler konfigüre ediliyor, map-reduce denilen şey nedir bir öğreneyim bakayım diyorsanız apache hadoop kurup bakmanızı tavsiye ederim. Mesela teradata aster tarafında select * from falanca_tablo şeklinde eski alışık olduğumuz sorgular yazarsınız. Ama unutmayın bunların hepsi arka tarafta map-reduce komutlarına dönüşür.

Bigdata Hangi Veriler ile Çalışır?
Text dosyaları,log dosyaları, sensor/machine log dosyaları, internet(twitter, blog, rss vs.vs.),video, image, dpi, cdr, call center dataları vs.vs. şeklinde datalar üzerinde çalışır.(Aklıma ilk gelen tek nefeste sıraladığım source’ lardır bunlar) Ama lütfen bu yazdıklarım kafanızda bir sınır oluşturmasın. Mevcut rdbms ilede entegre çalışabilir.

Sizin aklınızdaki sorular nedir? Lütfen gönderin hep birlikte tartışalım.

Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.

mmetin

Big Data Yazılarım

6 Mart 2016 Pazar

Bigdata Soruları - 1

Hiç yorum yok:

Yorum Gönder