Merhaba,
“Bigdata Soruları -1” blog
yazımda big data ile ilgili genel sorulara yanıt aramıştık.
Bu blog yazımda yine birkaç soruya
birlikte cevap arayacağız.
Bu soruları arkadaşlarımdan
rica ettim. Soru gönderen arkadaşlarıma çok teşekkür ederim.
Sorularda kelime bile
düzeltmeden, hatta soru sırasını bile değiştirmeden direkt olarak burada yazıp naçizane
bir şeyler yazmaya çalışacağım.
Bazı soruların cevaplarını
önceki “Bigdata Soruları -1” kısmında vermiştik. Belki bir kısmı tekrar olacak
ama bilgilerimizi tazelemiş oluruz.
“ Bigdata Soruları -1“ blog yazısına ulaşmak için : http://bigdatayazilari.blogspot.com.tr/2016/03/bigdata-sorular.html
Not: “Bigdata Soruları -3” sonraki blog yazılarımda devam edeceğim.
Sorular :
·
Big data
geleneksel veri ambarinin yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman
alir?
·
Big data
ile ilgili hangi pozisyonlar var? İlla kodlama seviyesinde mi ilgilenmek lazım?
·
Turkiyede
hangi şirketler var big dataya yatırım yapan
·
Kendi
bilgisayarımda big data ile ilgili neler yapabilirim, ne gerekir?
·
Big
dataya neden ihtiyaç oldu. Alternatif çözümleri yok muydu?
·
Big
datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar
nelerdir?
·
Big data
için en uygun ürün nedir?
·
Avantajları-
dezavantajları nelerdir?
·
Big data
platformları ve çalışma mantığı nedir?
·
İlerleyen
yıllarda firmaların bigdataya geçmesi artacak mıdır? Bu teknolojiye yönelmek ne
kadar mantıklı?
·
Big
datanın Türkiye’ deki geleceği
Soru : Big data geleneksel veri ambarinin
yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman alir?
Hayır. Geleneksel rdbms
sistemlerinde tutulması mantıksız olan volume-variety-velocity bakımından hep
üst seviyede olan verileriniz için hadoop sistemi kullanılır.
Rdbms sistemlerini desteklemek için hadoop kullanılır.
Hadoop sistemi, organizasyonunuzda – firmanızda data eco sisteminde,
kullanılan ve faydanılan konulardan sadece bir tanesidir.
Önemli bir parçasıdır tabi.
Firmanızdaki data eco sisteminde hadoop yok ise önemli bir parçası –
yapı taşı eksik demektir.
Hadoop şu anki mevcut haliyle rdbms bitirecek-yerini alacak
durumunda değildir.
Aslında bu son zamanlarda “hybrid data ecosystem” adı verilen yapı
içerisinde hadoop konulardan sadece bir tanesidir.
Sizin çalışmış olduğunuz organizasyonda duvardan duvara - baştan sona – her türlü çözümü içerecek bir
data ecosystem kurmak istediğimizde aşağıdaki yapıların olması gerekiyor.
Anlatmamın ve anlaşılmanın daha kolay olduğundan yine hikayeleştirerek
bir örnek vereyim.
Büyük bir organizasyonda – firmada çalışıyorsunuz.
Sizden “veri” ile ilgili ne varsa bir grup müdürlüğü kurulması
isteniyor.
Bu grup müdürlüklerin altında grup müdürüne bağlı müdürlüklerin
olması isteniyor.
Bu şekilde bir organizasyon kurulmasında grup müdürü kim olacak? Grup
müdürlüğünün altındaki müdürlükler nasıl olacak? Ve görevlerinde sizden
belirtmeniz isteniyor.
Grup
Müdürü : Hybrid Data Ecosystem
|
||
Müdür 1
|
Operational System (ods katmanı gibi)
|
Ods katmanına bakacak
|
Müdür 2
|
Enterprise Data Warehouse (edw)
|
Ods’ ten edw yapıp datamartlar yapacak
|
Müdür 3
|
Hadoop & Bigdata
|
Ods’ te olmayan volume-variety-velocity
bakımından hep üst seviyede olan structure-unstructure veriler ile
ilgilenecek
|
Müdür 4
|
noSQL
|
http://nosql-database.org/ inceleyiniz
|
Müdür 5
|
Analytical & Discovery Platform
|
Data mining diyelim
|
Müdür 6
|
Cloud
|
Kimi verileriniz ve serverlar cloud’ ta
|
Müdür 7
|
BI
|
BI uygulama ve yazılım geliştirme - raporlama
|
Müdür 8
|
vs.vs.vs..
|
|
İşte hadoop bu eco system’ de konulardan sadece biri.
Bu müdürlüklerin hiç biri diğerinin yerine ikame etmeyecek.
Soru : Big data ile ilgili hangi pozisyonlar
var? İlla kodlama seviyesinde mi ilgilenmek lazım?
“Bigdata Organizasyon Yapısı -2” blog yazısına ulaşmak için :
·
Hadoop
Analyst
·
Hadoop
Developer
·
Hadoop
Admin
·
Hadoop
Architect
·
Data Scientist
Soru : Turkiyede hangi şirketler var big dataya
yatırım yapan
Firma ismi verme konusunda çekincelerim var. Buradan yazmak doğru olmaz yani.
Ama kullanan – proje yapan çok firma var.
Ama kullanan – proje yapan çok firma var.
Ülkemizde telCo firmaların tamamında büyük – küçük hadoop appliance
ve projeler bulunmaktadır.
Bankacılıkta ise benim bildiğim 4 büyük bankada hadoop çözümleri
bulunmaktadır.
Kimilerinde atıl durumda kimilerinde ise oldukça bilgili kadrolara
sahip yapılar bulunmaktadır.
Domaini bilmediğim sayısız sektörde kullanan vardır tabi ki.
Sonuçta kendi networkümde bildiklerim bunlar.
Soru : Kendi bilgisayarımda big data ile ilgili
neler yapabilirim, ne gerekir?
Öncelikle bu blog yazılarını baştan sona
bakabilirseniz adım adım hadoop kurulumları vs. anlatılmıştır.
Örnekler verilmiştir.
Ben kurmak vs. istemiyorum hemen kullanayım – örnekler yapayım
diyorsanız sandbox’ ları kullanabilirsiniz.
Aşağıda birkaç download linki paylaşıyorum.
Oracle BDA : http://www.oracle.com/technetwork/database/bigdata-appliance/oracle-bigdatalite-2104726.html
Kendi makinanızda bir şeyler yaptınız hatta production şeklinde -N-
makinali bir cluster kurmak istediniz mesela.
Bu durumda cloudera manager ile kendi hadoop cluster’ ınızı kurabilirsiniz.
Soru : Big dataya neden ihtiyaç oldu.
Alternatif çözümleri yok muydu?
Big
datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar
nelerdir?
Hadoop konusu ilk Google mühendisleri ile ortaya çıktı.
Sonra whitepaper yayınlanması ve Doug Cutting’ in çalışmaları ile
bizim gibi kullanıcılara yayıldı.
Google ilk çıktığında verilerini geleneksel rdbms’ ler üzerinde
tutmadı.
Yani oracle-sql server –teradata-ibm vs.vs. ile anlaşmadı ve bu
firmaların databaselerini asıl işlerinde kullanmadı. (lisans ücretleri, pahalı
olmaları , google veri ölçeğine göre yetersiz olmaları vs. vs. nedenlerden
kullanmadı)
Kendi file sisteminde verilerini tuttu. (GFS adında = Google File System )
Çünkü elindeki veri geleneksel rdbms’ ler üzerinde tutulması mümkün
olmayacak kadar büyük – karmaşık – structure – unstructure – hızlı akan – çok çeşitli
veriyi ihtiva ediyordu.
Amaç ise hacmi büyük – hızlı
akan – çok çeşitli veride , hızlı sorgu çekebilmek, verileri ucuz maliyetli
olarak storage etmek, her hangi bir firmaya bağımlı kalmamak (rdbms firmalarını
kastetiyorum), veri artıkça kolay ve ucuz bir şekilde sadece disk çıkar tak
şeklinde cluster’ a yeni makine eklemek vs. vs. nedenlerinden kendi
sistemlerini kurdular.
(düşünsenize kullandığınız rdbms appliance’ ta birkaç diskin bozulduğunu, Hadoop ta bu sorun olmuyor)
(düşünsenize kullandığınız rdbms appliance’ ta birkaç diskin bozulduğunu, Hadoop ta bu sorun olmuyor)
GFS ile veri hem replike olarak tutulmaktaydı.
Yani google’ un clusterlarında binlerce makinada biri bozulsa
verinin bir kopyası başka bir makinada yer alacaktı.
(youtube ‘ tan google data center diye search yapınız.
Bozulan diskler üzerindeki işlemler gösterilmektedir.
O anda sistem ve sorgular çalışması devam etmektedir. )
(youtube ‘ tan google data center diye search yapınız.
Bozulan diskler üzerindeki işlemler gösterilmektedir.
O anda sistem ve sorgular çalışması devam etmektedir. )
Ve sorgular durmayacak hatta sistem otomatik olarak bozuk diski
algılayıp verinin – dosyanın kopyasını başka makinaya alacaktı.
Çekilen sorgular makinalara dağıtılacak (distributed) her bir
makinada ki sorgu sonuçları reduce edilip yani bir bakıma toplanıp sonucu
verilecekti.
Büyük boyutlu dosyalar 64 ya da 128MB dosyalara bölünecek cluster
içindeki makinalara otomatik olarak dağıtılacaktı. Bu işlemler elbette otomatik
olmalıydı.
Bir de Google ile özdeşleşen pagerank algoritması. Bu konuya detaylı
girmeyeceğim. Yani her şey makine değildi.
İşte bu nedenlerden dolayı Google bu sistemi kurdu sonra bizim gibi
son kullanıcılar tarafından da kullanılabilir oldu.
Soru : Big data için en uygun ürün nedir?
Avantajları- dezavantajları nelerdir?
Big data platformları ve çalışma mantığı nedir?
Free yada paralı appliance’ lar kullanabilirsiniz.
Free olanlar apache hadoop ve cloudera manager olanı kendiniz,
kendi satın aldığınız server tipindeki makinalara kurabilirsiniz.
“Bigdata Soruları -1” kısmında appliance almak zorunda mıyım? Sorusunda
bu konuya biraz değinmiştik.
Paranız varsa ve risk almak istemiyorsanız ve kurulum vs. ben
uğraşamam, destek vs. ben veremem, hazır makinalara kurulmuş çözümlere
bakıyorsanız paralı yani appliance’ lar kullanabilirsiniz.
Big data için kullanılabilecek ürünler aşağıdadır.
|
Ürün
|
Avantaj & Dezavantaj Yorum
|
|
Appliance (ibm-teradata – oracle – intel – sas
– hp - ms hdinsight – vs.vs firmaları ile anlaşarak bu firmaların makine ve
hadoop yazılımları alınabilir.
|
Avantaj: Destek vs. alabilirsiniz. Kurulu geldiğinden
kurulum vs. siz uğraşmazsınız. Hatta versiyon yükseltme vs. uğraşmazsınız.
Dezavantaj: paralı
|
|
Cassandra kullanılabilir. Tecrübem
olmadığından hakkında yazı ve yorumda bulunamıyacağım.
|
|
|
Free hadoop adını verdiğim apache hadoop veya
cloudera manager ile kendi cluster’ ınızı kurabilirsiniz.
|
Her şey sizin sorumluğunuzda. Kurulumundan
versiyon yükseltme ve sorun gidermeye kadar.
|
Soru : İlerleyen yıllarda firmaların bigdataya
geçmesi artacak mıdır? Bu teknolojiye yönelmek ne kadar mantıklı?
Big datanın Türkiye’ deki geleceği
Dünyada veri boyutu her geçen yıl sürekli logaritmik
olarak artmaktadır.
Bununla ilgili dünyada dakikada şu kadar veri oluşuyor
vs. şeklinde çok sunum görmüşsünüzdür.
Google’ da “every minute in bigdata” diye görsellerde search
ederseniz tonlarca site karşınıza çıkar
Hatta tahminleme kullanılarak 2020-2030 da bilmem şu kadar exabaytes
- zettabaytes dünyada veri boyutu olacak şeklinde de paper’ lar vardır.
Google’ da “bigdata prediction 2020” diye görsellerde
search ederseniz yine tonlarca site karşımıza çıkar.
Kendi firmanızda da durum bu şekildedir aslında.
Birkaç sene sonra veri ambarınızın boyutu ne olacak?
Birkaç sene sonra veri ambarınızın boyutu ne olacak?
Yeni disk alınması yada veri ambarınızı migrate vs. etmeyi
planlıyor musunuz?
Verinin bu kadar hızlı büyüdüğü bir ortamda sorunuzun cevabı “”””evet
bigdata teknolojilerini kullanan firmalarda verinin hızlı artması gibi
artacaktır.”” şeklinde cevap verebiliriz.
Teknolojiye geçmek ne kadar mantıklı? Sorusu ise aslında yukarıda
cevabını verdim diye düşünüyorum.
Firmalar bir taraftan bigdata müdürlüklerini yavaş yavaş kurmaları
gerekiyor.
Teknik insanlar olarak mühendis arkadaşlarımızda bu güne kadar bu
konuda çalışmamışsa-okumamışsa onlarında yavaş yavaş konuyu okumaları,
gerekirse ellerini kirletmeleri vs. gerekiyor.
Ülkemizde bu konularla uğraşan çok değerleri ve bilgili
arkadaşlarımız var.
Ama hala yeterli sayıda olduğunu düşünmüyorum.
Piyasada yazılım mühendisi – raporlama uzmanı – veri ambarı uzmanı vs. ilan çıktığınızda belki binlerce başvuru alabilirsiniz.
Piyasada yazılım mühendisi – raporlama uzmanı – veri ambarı uzmanı vs. ilan çıktığınızda belki binlerce başvuru alabilirsiniz.
Bir pentatloncu hadoop işiyle uğraşan kişi bulmak gerçekten zor.
Konuya soğuk bakan veya hiç bilmeyen ve bu güne kadar “”ya biz şu
big data konusunda hiç çalışmadık belki pek çok problemimizi halledecek bile
demeyen”” firmalar var.
Bir farkındalık oluşturmak gerekiyor aslında.
Bir farkındalık oluşturmak gerekiyor aslında.
Not: “Bigdata Soruları -3”
sonraki blog yazılarımda devam edeceğim.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin

