Merhaba,
Uzun süre sonra,
hadoop-bigdata yazılarına başladım.
Eski yazılarımın
yeni blog sayfasına eklenmesi işlemini bitirdikten sonra artık sıra yeni
yazılarıma geldi.
Bu yazımda konuya çok derinlemesine
girmeden temel karşılaştırmaları bulabileceğiniz Hadoop distributions’ larından
beğendiğim video ve siteleri paylaşacağım.
Not: Aşağıda yanlış bildiğim konu vs. varsa her zaman
mail atabilirsiniz.
Piyasada benim bildiğim 3 yazılım hadoop distributions
var.
Hem donanım hem yazılım tarafında ibm ve intel
firmaların çözümleri bulunmaktadır. Fakat intel son olarak kendi hadoop yazılımını
kullanmak yerine cloudera’ yı kendi donanımlarında konumlandırmaya başladı.
Yani yazılım tarafında cloudera kullanmaya başladı.
Ibm ise ilk zamanlar kendi geliştirdiği ya da
desteğini verdiği ya da sorumlu olduğu yani ne cloudera ne hortonworks olan
hadoop yazılımını kullanmadı.
Şu anda yine bildiğim kadarıyla cloudera ve
hortonworks ile bir iş birliği halinde bulunmaktadır.
Eğer siz donanım + yazılım olarak komple bir çözüm ya da
makine kullanmak istiyorsanız piyasa jargonu ile bir appliance almalısınız.
Oracle BDA, Teradata Hadoop , Sas Hadoop, Cloud
ortamında Microsoft firmasının HDInsight , IBM Biginsight vs. vs.
Bu firmalar kendi donanımlarını yani hardware’ leri
üzerine hadoop yazılımlarını yani distributions ‘ larını konumlandırırlar.
Oracle BDA = cloudera kullanır.
Teradata Hadoop = Hortonworks kullanır. (cloudera ile
de anlaştılar bildiğim kadarıyla.Bir kaç seneye cloudera + hortonworks tercihi
ile gelebilirler )
Intel = Cloudera kullanır.
HDInsight = Hortonworks kullanır.
Bu işe hiç girmemiş, daha yeni yeni hadoop öğrenenler
diyebilir ki?
Hangisini öğrenmeliyim?
Aslında hepsi birbirinin ikiz kardeşi gibidir.
Hepsinde apache hadoop lisanslaması vardır.
Mesela apache hive öğrendiniz diyelim.
Bu hortonworks’ ta da aynı , cloudera’ da da aynıdır.
Aynı şekilde flume-sqoop-kafka-hbase vs.vs.
Yani hadoop’ un etrafındaki tool’ lar değişmez.
Söz dizimi, kullanımı vs. aynıdır.
Yönetiminde hortonworks ambari kullanır ama cloudera
ise cloudera manager kullanır.
Peki farkları nelerdir derseniz?
Madem bir tarafta hue ekranında yazdığım pig kodu ile (cloudera
mesela ) diğer tarafta yine hue ekranında yazdığım pig kodu (hortonworks
mesela) aynı ise hangisini neye göre tercih edeyim?
İşte bugünkü blog yazısını da bu nedenle yazdım.
Aşağıda bir kaç link paylaşıyorum.
Bu konuda google’ da tonlarca link ve bilgi
bulabilirsiniz.
Bu 2 link benim favorimdir.
Bu karar verme sürecinde mühendisçe düşünüp pek çok
soruya yanıt bulmanız lazım. Bunları önem derecelerine göre derecelendirip,
gerekirse önem çarpanı verip sizler için en uygun olanı seçebilirsiniz?
Aklımda bir çırpıda gelen sorular:
·
Maliyetler,
hangisi daha ucuz?
·
Hangisinde
destek daha fazla?
·
Hangisinde sorun
yaşarsam gelip sorunu çözmeleri daha hızlı?
·
Hangisinde
danışman ya da destek elamanları daha iyi?
·
Hangisinde community
daha fazla?
·
Hangisinde in
memory çözümleri daha iyi?
·
Hangisinde referanslar
var? Turkiye ve çevremizdeki projeleri?
·
Hepsi 3v
etrafında toplanmıştır. Ama son V olan ve bence en değerlesi olan Value
kısmında hangisi öne çıkar?
·
Mevcut
sistemlerimle uyumluluk nasıl?
·
vs.vs.
Bana sorarsanız: Son soruda belirttiğim : “”Mevcut
sistemlerimle uyumluluk nasıl?”” son
derece önemli.
Aslında hangisini tercih etmeliyim sorusuna siz şu
anda hangi sistemleri kullanıyorsunuz ona göre karar vermenizi tavsiye ederim.
Çünkü kullanacağız hadoop sistemine veri aktarma, veri
alma ve çıktılarını tekrar mevcut rdms sistemlerine aktarma ve mevcut raporlama
tool’ ları, ya da analitik toollarına gönderme-besleme yapacaksınız.
Bu nedenle uyumluluk son derece önemli. Tecrübe ile
sabittir.
Konuyu şöyle açayım.
Diyelim ki teradata kullanıyorsunuz.
Hadoop sisteminden teradata ortamına veri aktarmak ya da
tam tersini yapacaksınız.
Bu durumda uyumluluk açısından teradata hadoop
tercihler arasında bir tık önde olabilir.
Ya da database olarak oracle, exadata kullanıyorsunuz.
Mevcut raporlama tool’ u olarak oracle bi diyelim.
Bu durumda uyumluluk problemi daha az yaşamak için
oracle bda bir tık önde olabilir.
Ya da bir cep projesi yapacaksınız. IBM infosphere
biginsight inceleyebilirsiniz.
Ya da önceki blog yazılarımda bahsettiğim gibi “”siz
efelenip ben appliance almayacağım diyebilirsiniz.
O zaman open source olan apache hadoop
kullanabilirsiniz. Beleştir yani.
Yada cloudera manager ‘ ın enterprise olmayan
ve gayette başarılı olan cloudera manager’ ı sizin makinalarınıza
kurabilirsiniz. Bu konuda http://bigdatayazilari.blogspot.com.tr/2016/03/bigdata-sorular.html Appliance
Almak Zorunda mıyım? yazısında belirtmiştim.””
Gelelim şu 2 linke :
Aşağıda adresini paylaştığım videoyu ve video’
da geçen resmi incelemenizi tavsiye ederim.
resim videodan alıntıdır.
Güzel bir yazı:
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
http://tr.linkedin.com/in/muratmetin

Hiç yorum yok:
Yorum Gönder