24 Mart 2016 Perşembe

Bigdata Soruları - 2


Merhaba,

“Bigdata Soruları -1” blog yazımda big data ile ilgili genel sorulara yanıt aramıştık.

Bu blog yazımda yine birkaç soruya birlikte cevap arayacağız.

Bu soruları arkadaşlarımdan rica ettim. Soru gönderen arkadaşlarıma çok teşekkür ederim. 

Sorularda kelime bile düzeltmeden, hatta soru sırasını bile değiştirmeden direkt olarak burada yazıp naçizane bir şeyler yazmaya çalışacağım.

Bazı soruların cevaplarını önceki “Bigdata Soruları -1” kısmında vermiştik. Belki bir kısmı tekrar olacak ama bilgilerimizi tazelemiş oluruz.


“ Bigdata Soruları -1“  blog yazısına ulaşmak için :   http://bigdatayazilari.blogspot.com.tr/2016/03/bigdata-sorular.html


Not: “Bigdata Soruları -3” sonraki blog yazılarımda devam edeceğim.

Sorular :
·         Big data geleneksel veri ambarinin yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman alir?

·         Big data ile ilgili hangi pozisyonlar var? İlla kodlama seviyesinde mi ilgilenmek lazım?

·         Turkiyede hangi şirketler var big dataya yatırım yapan

·         Kendi bilgisayarımda big data ile ilgili neler yapabilirim, ne gerekir?

·         Big dataya neden ihtiyaç oldu. Alternatif çözümleri yok muydu?

·         Big datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar nelerdir?

·         Big data için en uygun ürün nedir?

·         Avantajları- dezavantajları nelerdir?

·         Big data platformları ve çalışma mantığı nedir?

·         İlerleyen yıllarda firmaların bigdataya geçmesi artacak mıdır? Bu teknolojiye yönelmek ne kadar mantıklı?

·         Big datanın Türkiye’ deki geleceği


Soru : Big data geleneksel veri ambarinin yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman alir?

Hayır. Geleneksel rdbms sistemlerinde tutulması mantıksız olan volume-variety-velocity bakımından hep üst seviyede olan verileriniz için hadoop sistemi kullanılır.

Rdbms sistemlerini desteklemek için hadoop kullanılır.

Hadoop sistemi, organizasyonunuzda – firmanızda data eco sisteminde, kullanılan ve faydanılan konulardan sadece bir tanesidir.

Önemli bir parçasıdır tabi.

Firmanızdaki data eco sisteminde hadoop yok ise önemli bir parçası – yapı taşı eksik demektir.

Hadoop şu anki mevcut haliyle rdbms bitirecek-yerini alacak durumunda değildir.

Aslında bu son zamanlarda “hybrid data ecosystem” adı verilen yapı içerisinde hadoop konulardan sadece bir tanesidir.

Sizin çalışmış olduğunuz organizasyonda duvardan duvara  - baştan sona – her türlü çözümü içerecek bir data ecosystem kurmak istediğimizde aşağıdaki yapıların olması gerekiyor.

Anlatmamın ve anlaşılmanın daha kolay olduğundan yine hikayeleştirerek bir örnek vereyim.  
Büyük bir organizasyonda – firmada çalışıyorsunuz.

Sizden “veri” ile ilgili ne varsa bir grup müdürlüğü kurulması isteniyor.

Bu grup müdürlüklerin altında grup müdürüne bağlı müdürlüklerin olması isteniyor.

Bu şekilde bir organizasyon kurulmasında grup müdürü kim olacak? Grup müdürlüğünün altındaki müdürlükler nasıl olacak? Ve görevlerinde sizden belirtmeniz isteniyor.



Grup Müdürü : Hybrid Data Ecosystem

Müdür 1
Operational System (ods katmanı gibi)
Ods katmanına bakacak
Müdür 2
Enterprise Data Warehouse (edw)
Ods’ ten edw yapıp datamartlar yapacak
Müdür 3
Hadoop & Bigdata
Ods’ te olmayan volume-variety-velocity bakımından hep üst seviyede olan structure-unstructure veriler ile ilgilenecek
Müdür 4
noSQL
Müdür 5
Analytical & Discovery Platform
Data mining diyelim
Müdür 6
Cloud
Kimi verileriniz ve serverlar cloud’ ta
Müdür 7
BI
BI uygulama ve yazılım geliştirme - raporlama
Müdür 8
vs.vs.vs..


İşte hadoop bu eco system’ de konulardan sadece biri.

Bu müdürlüklerin hiç biri diğerinin yerine ikame etmeyecek.



Soru : Big data ile ilgili hangi pozisyonlar var? İlla kodlama seviyesinde mi ilgilenmek lazım?

            “Bigdata Organizasyon Yapısı -2” blog yazısına ulaşmak için :
                 
·         Hadoop Analyst
·         Hadoop Developer
·         Hadoop Admin
·         Hadoop Architect
·         Data Scientist

Soru : Turkiyede hangi şirketler var big dataya yatırım yapan

Firma ismi verme konusunda çekincelerim var. Buradan yazmak doğru olmaz yani. 

Ama kullanan – proje yapan çok firma var.

Ülkemizde telCo firmaların tamamında büyük – küçük hadoop appliance ve projeler bulunmaktadır.

Bankacılıkta ise benim bildiğim 4 büyük bankada hadoop çözümleri bulunmaktadır.

Kimilerinde atıl durumda kimilerinde ise oldukça bilgili kadrolara sahip yapılar bulunmaktadır.

Domaini bilmediğim sayısız sektörde kullanan vardır tabi ki.

Sonuçta kendi networkümde bildiklerim bunlar.


Soru : Kendi bilgisayarımda big data ile ilgili neler yapabilirim, ne gerekir?

            Öncelikle bu blog yazılarını baştan sona bakabilirseniz adım adım hadoop kurulumları vs. anlatılmıştır.

Örnekler verilmiştir.

Ben kurmak vs. istemiyorum hemen kullanayım – örnekler yapayım diyorsanız sandbox’ ları kullanabilirsiniz.  

Aşağıda birkaç download linki paylaşıyorum.


Kendi makinanızda bir şeyler yaptınız hatta production şeklinde -N- makinali bir cluster kurmak istediniz mesela.  

Bu durumda cloudera manager ile kendi hadoop cluster’ ınızı kurabilirsiniz.


Soru : Big dataya neden ihtiyaç oldu. Alternatif çözümleri yok muydu?
            Big datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar nelerdir?


Hadoop konusu ilk Google mühendisleri ile ortaya çıktı.

Sonra whitepaper yayınlanması ve Doug Cutting’ in çalışmaları ile bizim gibi kullanıcılara yayıldı.

Google ilk çıktığında verilerini geleneksel rdbms’ ler üzerinde tutmadı.

Yani oracle-sql server –teradata-ibm vs.vs. ile anlaşmadı ve bu firmaların databaselerini asıl işlerinde kullanmadı. (lisans ücretleri, pahalı olmaları , google veri ölçeğine göre yetersiz olmaları vs. vs. nedenlerden kullanmadı)

Kendi file sisteminde verilerini tuttu.  (GFS adında = Google File System )

Çünkü elindeki veri geleneksel rdbms’ ler üzerinde tutulması mümkün olmayacak kadar büyük – karmaşık – structure – unstructure – hızlı akan – çok çeşitli veriyi ihtiva ediyordu.

Amaç ise  hacmi büyük – hızlı akan – çok çeşitli veride , hızlı sorgu çekebilmek, verileri ucuz maliyetli olarak storage etmek, her hangi bir firmaya bağımlı kalmamak (rdbms firmalarını kastetiyorum), veri artıkça kolay ve ucuz bir şekilde sadece disk çıkar tak şeklinde cluster’ a yeni makine eklemek vs. vs. nedenlerinden kendi sistemlerini kurdular. 
(düşünsenize kullandığınız rdbms appliance’ ta birkaç diskin bozulduğunu, Hadoop ta bu sorun olmuyor)  

GFS ile veri hem replike olarak tutulmaktaydı.

Yani google’ un clusterlarında binlerce makinada biri bozulsa verinin bir kopyası başka bir makinada yer alacaktı. 
(youtube ‘ tan google data center diye search yapınız. 
Bozulan diskler üzerindeki işlemler gösterilmektedir. 
O anda sistem ve sorgular çalışması devam etmektedir. )

Ve sorgular durmayacak hatta sistem otomatik olarak bozuk diski algılayıp verinin – dosyanın kopyasını başka makinaya alacaktı.

Çekilen sorgular makinalara dağıtılacak (distributed) her bir makinada ki sorgu sonuçları reduce edilip yani bir bakıma toplanıp sonucu verilecekti.

Büyük boyutlu dosyalar 64 ya da 128MB dosyalara bölünecek cluster içindeki makinalara otomatik olarak dağıtılacaktı. Bu işlemler elbette otomatik olmalıydı.

Bir de Google ile özdeşleşen pagerank algoritması. Bu konuya detaylı girmeyeceğim. Yani her şey makine değildi.

İşte bu nedenlerden dolayı Google bu sistemi kurdu sonra bizim gibi son kullanıcılar tarafından da kullanılabilir oldu.


Soru : Big data için en uygun ürün nedir?
Avantajları- dezavantajları nelerdir?
Big data platformları ve çalışma mantığı nedir?

Free yada paralı appliance’ lar kullanabilirsiniz.

Free olanlar apache hadoop ve cloudera manager olanı kendiniz, kendi satın aldığınız server tipindeki makinalara kurabilirsiniz.

“Bigdata Soruları -1” kısmında appliance almak zorunda mıyım? Sorusunda bu konuya biraz değinmiştik.

Paranız varsa ve risk almak istemiyorsanız ve kurulum vs. ben uğraşamam, destek vs. ben veremem, hazır makinalara kurulmuş çözümlere bakıyorsanız paralı yani appliance’ lar kullanabilirsiniz.

Big data için kullanılabilecek ürünler aşağıdadır.
Ürün
Avantaj & Dezavantaj Yorum
Appliance (ibm-teradata – oracle – intel – sas – hp - ms hdinsight – vs.vs firmaları ile anlaşarak bu firmaların makine ve hadoop yazılımları alınabilir.

Avantaj: Destek vs. alabilirsiniz. Kurulu geldiğinden kurulum vs. siz uğraşmazsınız. Hatta versiyon yükseltme vs. uğraşmazsınız.

Dezavantaj: paralı

Cassandra kullanılabilir. Tecrübem olmadığından hakkında yazı ve yorumda bulunamıyacağım.


Free hadoop adını verdiğim apache hadoop veya cloudera manager ile kendi cluster’ ınızı kurabilirsiniz.

Her şey sizin sorumluğunuzda. Kurulumundan versiyon yükseltme ve sorun gidermeye kadar.

Soru : İlerleyen yıllarda firmaların bigdataya geçmesi artacak mıdır? Bu teknolojiye yönelmek ne kadar mantıklı?
Big datanın Türkiye’ deki geleceği

            Dünyada veri boyutu her geçen yıl sürekli logaritmik olarak artmaktadır.

            Bununla ilgili dünyada dakikada şu kadar veri oluşuyor vs. şeklinde çok sunum görmüşsünüzdür.

Google’ da “every minute in bigdata” diye görsellerde search ederseniz tonlarca site karşınıza çıkar
           
Hatta tahminleme kullanılarak 2020-2030 da bilmem şu kadar exabaytes - zettabaytes dünyada veri boyutu olacak şeklinde de paper’ lar vardır.

            Google’ da “bigdata prediction 2020” diye görsellerde search ederseniz yine tonlarca site karşımıza çıkar.


Kendi firmanızda da durum bu şekildedir aslında. 

            Birkaç sene sonra veri ambarınızın boyutu ne olacak?

Yeni disk alınması yada veri ambarınızı migrate vs. etmeyi planlıyor musunuz?

Verinin bu kadar hızlı büyüdüğü bir ortamda sorunuzun cevabı “”””evet bigdata teknolojilerini kullanan firmalarda verinin hızlı artması gibi artacaktır.”” şeklinde cevap verebiliriz.

Teknolojiye geçmek ne kadar mantıklı? Sorusu ise aslında yukarıda cevabını verdim diye düşünüyorum.

Firmalar bir taraftan bigdata müdürlüklerini yavaş yavaş kurmaları gerekiyor.
Teknik insanlar olarak mühendis arkadaşlarımızda bu güne kadar bu konuda çalışmamışsa-okumamışsa onlarında yavaş yavaş konuyu okumaları, gerekirse ellerini kirletmeleri vs. gerekiyor.

Ülkemizde bu konularla uğraşan çok değerleri ve bilgili arkadaşlarımız var.

Ama hala yeterli sayıda olduğunu düşünmüyorum. 

Piyasada yazılım mühendisi – raporlama uzmanı – veri ambarı uzmanı vs. ilan çıktığınızda belki binlerce başvuru alabilirsiniz.

Bir pentatloncu hadoop işiyle uğraşan kişi bulmak gerçekten zor.

Konuya soğuk bakan veya hiç bilmeyen ve bu güne kadar “”ya biz şu big data konusunda hiç çalışmadık belki pek çok problemimizi halledecek bile demeyen”” firmalar var. 

Bir farkındalık oluşturmak gerekiyor aslında.


Not: “Bigdata Soruları -3” sonraki blog yazılarımda devam edeceğim.


Bugünkü blog yazımız bu kadar.


Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.

mmetin


Hiç yorum yok:

Yorum Gönder