8 Mart 2016 Salı

Hangi Hadoop Distribution?


Merhaba,
Uzun süre sonra, hadoop-bigdata yazılarına başladım.
Eski yazılarımın yeni blog sayfasına eklenmesi işlemini bitirdikten sonra artık sıra yeni yazılarıma geldi.

Bu yazımda konuya çok derinlemesine girmeden temel karşılaştırmaları bulabileceğiniz Hadoop distributions’ larından beğendiğim video ve siteleri paylaşacağım.

Not: Aşağıda yanlış bildiğim konu vs. varsa her zaman mail atabilirsiniz.

Piyasada benim bildiğim 3 yazılım hadoop distributions var.
Hem donanım hem yazılım tarafında ibm ve intel firmaların çözümleri bulunmaktadır. Fakat intel son olarak kendi hadoop yazılımını kullanmak yerine cloudera’ yı kendi donanımlarında konumlandırmaya başladı.
Yani yazılım tarafında cloudera kullanmaya başladı.
Ibm ise ilk zamanlar kendi geliştirdiği ya da desteğini verdiği ya da sorumlu olduğu yani ne cloudera ne hortonworks olan hadoop yazılımını kullanmadı.
Şu anda yine bildiğim kadarıyla cloudera ve hortonworks ile bir iş birliği halinde bulunmaktadır.
Eğer siz donanım + yazılım olarak komple bir çözüm ya da makine kullanmak istiyorsanız piyasa jargonu ile bir appliance almalısınız.
Oracle BDA, Teradata Hadoop , Sas Hadoop, Cloud ortamında Microsoft firmasının HDInsight , IBM Biginsight  vs. vs.
Bu firmalar kendi donanımlarını yani hardware’ leri üzerine hadoop yazılımlarını yani distributions ‘ larını konumlandırırlar.
Oracle BDA = cloudera kullanır.
Teradata Hadoop = Hortonworks kullanır. (cloudera ile de anlaştılar bildiğim kadarıyla.Bir kaç seneye cloudera + hortonworks tercihi ile gelebilirler )
Intel = Cloudera kullanır.
HDInsight = Hortonworks kullanır.

Bu işe hiç girmemiş, daha yeni yeni hadoop öğrenenler diyebilir ki?
Hangisini öğrenmeliyim?
Aslında hepsi birbirinin ikiz kardeşi gibidir.
Hepsinde apache hadoop lisanslaması vardır.
Mesela apache hive öğrendiniz diyelim.
Bu hortonworks’ ta da aynı , cloudera’ da da aynıdır.
Aynı şekilde flume-sqoop-kafka-hbase vs.vs.
Yani hadoop’ un etrafındaki tool’ lar değişmez.
Söz dizimi, kullanımı vs. aynıdır.
Yönetiminde hortonworks ambari kullanır ama cloudera ise cloudera manager kullanır.

Peki farkları nelerdir derseniz?
Madem bir tarafta hue ekranında yazdığım pig kodu ile (cloudera mesela ) diğer tarafta yine hue ekranında yazdığım pig kodu (hortonworks mesela) aynı ise hangisini neye göre tercih edeyim?
İşte bugünkü blog yazısını da bu nedenle yazdım.
Aşağıda bir kaç link paylaşıyorum.
Bu konuda google’ da tonlarca link ve bilgi bulabilirsiniz.
Bu 2 link benim favorimdir.

Bu karar verme sürecinde mühendisçe düşünüp pek çok soruya yanıt bulmanız lazım. Bunları önem derecelerine göre derecelendirip, gerekirse önem çarpanı verip sizler için en uygun olanı seçebilirsiniz?

Aklımda bir çırpıda gelen sorular:
·         Maliyetler, hangisi daha ucuz?
·         Hangisinde destek daha fazla?
·         Hangisinde sorun yaşarsam gelip sorunu çözmeleri daha hızlı?
·         Hangisinde danışman ya da destek elamanları daha iyi?
·         Hangisinde community daha  fazla?
·         Hangisinde in memory çözümleri daha iyi?
·         Hangisinde referanslar var? Turkiye ve çevremizdeki  projeleri?
·         Hepsi 3v etrafında toplanmıştır. Ama son V olan ve bence en değerlesi olan Value kısmında hangisi öne çıkar?
·         Mevcut sistemlerimle uyumluluk nasıl?
·         vs.vs.

Bana sorarsanız:  Son soruda belirttiğim : “”Mevcut sistemlerimle uyumluluk nasıl?””  son derece önemli.
Aslında hangisini tercih etmeliyim sorusuna siz şu anda hangi sistemleri kullanıyorsunuz ona göre karar vermenizi tavsiye ederim.  

Çünkü kullanacağız hadoop sistemine veri aktarma, veri alma ve çıktılarını tekrar mevcut rdms sistemlerine aktarma ve mevcut raporlama tool’ ları, ya da analitik toollarına gönderme-besleme yapacaksınız.
Bu nedenle uyumluluk son derece önemli. Tecrübe ile sabittir.

Konuyu şöyle açayım.
Diyelim ki teradata kullanıyorsunuz.
Hadoop sisteminden teradata ortamına veri aktarmak ya da tam tersini yapacaksınız.
Bu durumda uyumluluk açısından teradata hadoop tercihler arasında bir tık önde olabilir.
Ya da database olarak oracle, exadata kullanıyorsunuz.
Mevcut raporlama tool’ u olarak oracle bi diyelim.
Bu durumda uyumluluk problemi daha az yaşamak için oracle bda bir tık önde olabilir.
Ya da bir cep projesi yapacaksınız. IBM infosphere biginsight inceleyebilirsiniz.

Ya da önceki blog yazılarımda bahsettiğim gibi  “”siz efelenip ben appliance almayacağım diyebilirsiniz.
O zaman open source olan apache hadoop kullanabilirsiniz. Beleştir yani.
Yada cloudera manager ‘ ın enterprise olmayan ve gayette başarılı olan cloudera manager’ ı sizin makinalarınıza kurabilirsiniz. Bu konuda http://bigdatayazilari.blogspot.com.tr/2016/03/bigdata-sorular.html   Appliance Almak Zorunda mıyım? yazısında belirtmiştim.””


Gelelim şu 2 linke :

Aşağıda adresini paylaştığım videoyu ve video’ da geçen resmi incelemenizi tavsiye ederim.

https://www.youtube.com/watch?v=WRfMrwyniqQ

resim videodan alıntıdır.

Güzel bir yazı: 





Bugünkü blog yazımız bu kadar.

Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.


mmetin

http://tr.linkedin.com/in/muratmetin


Hiç yorum yok:

Yorum Gönder