24 Mart 2016 Perşembe

Bigdata Soruları - 2


Merhaba,

“Bigdata Soruları -1” blog yazımda big data ile ilgili genel sorulara yanıt aramıştık.

Bu blog yazımda yine birkaç soruya birlikte cevap arayacağız.

Bu soruları arkadaşlarımdan rica ettim. Soru gönderen arkadaşlarıma çok teşekkür ederim. 

Sorularda kelime bile düzeltmeden, hatta soru sırasını bile değiştirmeden direkt olarak burada yazıp naçizane bir şeyler yazmaya çalışacağım.

Bazı soruların cevaplarını önceki “Bigdata Soruları -1” kısmında vermiştik. Belki bir kısmı tekrar olacak ama bilgilerimizi tazelemiş oluruz.


“ Bigdata Soruları -1“  blog yazısına ulaşmak için :   http://bigdatayazilari.blogspot.com.tr/2016/03/bigdata-sorular.html


Not: “Bigdata Soruları -3” sonraki blog yazılarımda devam edeceğim.

Sorular :
·         Big data geleneksel veri ambarinin yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman alir?

·         Big data ile ilgili hangi pozisyonlar var? İlla kodlama seviyesinde mi ilgilenmek lazım?

·         Turkiyede hangi şirketler var big dataya yatırım yapan

·         Kendi bilgisayarımda big data ile ilgili neler yapabilirim, ne gerekir?

·         Big dataya neden ihtiyaç oldu. Alternatif çözümleri yok muydu?

·         Big datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar nelerdir?

·         Big data için en uygun ürün nedir?

·         Avantajları- dezavantajları nelerdir?

·         Big data platformları ve çalışma mantığı nedir?

·         İlerleyen yıllarda firmaların bigdataya geçmesi artacak mıdır? Bu teknolojiye yönelmek ne kadar mantıklı?

·         Big datanın Türkiye’ deki geleceği


Soru : Big data geleneksel veri ambarinin yerini alir mi ? Alirsa Türkiye ve dunyada ne zaman alir?

Hayır. Geleneksel rdbms sistemlerinde tutulması mantıksız olan volume-variety-velocity bakımından hep üst seviyede olan verileriniz için hadoop sistemi kullanılır.

Rdbms sistemlerini desteklemek için hadoop kullanılır.

Hadoop sistemi, organizasyonunuzda – firmanızda data eco sisteminde, kullanılan ve faydanılan konulardan sadece bir tanesidir.

Önemli bir parçasıdır tabi.

Firmanızdaki data eco sisteminde hadoop yok ise önemli bir parçası – yapı taşı eksik demektir.

Hadoop şu anki mevcut haliyle rdbms bitirecek-yerini alacak durumunda değildir.

Aslında bu son zamanlarda “hybrid data ecosystem” adı verilen yapı içerisinde hadoop konulardan sadece bir tanesidir.

Sizin çalışmış olduğunuz organizasyonda duvardan duvara  - baştan sona – her türlü çözümü içerecek bir data ecosystem kurmak istediğimizde aşağıdaki yapıların olması gerekiyor.

Anlatmamın ve anlaşılmanın daha kolay olduğundan yine hikayeleştirerek bir örnek vereyim.  
Büyük bir organizasyonda – firmada çalışıyorsunuz.

Sizden “veri” ile ilgili ne varsa bir grup müdürlüğü kurulması isteniyor.

Bu grup müdürlüklerin altında grup müdürüne bağlı müdürlüklerin olması isteniyor.

Bu şekilde bir organizasyon kurulmasında grup müdürü kim olacak? Grup müdürlüğünün altındaki müdürlükler nasıl olacak? Ve görevlerinde sizden belirtmeniz isteniyor.



Grup Müdürü : Hybrid Data Ecosystem

Müdür 1
Operational System (ods katmanı gibi)
Ods katmanına bakacak
Müdür 2
Enterprise Data Warehouse (edw)
Ods’ ten edw yapıp datamartlar yapacak
Müdür 3
Hadoop & Bigdata
Ods’ te olmayan volume-variety-velocity bakımından hep üst seviyede olan structure-unstructure veriler ile ilgilenecek
Müdür 4
noSQL
Müdür 5
Analytical & Discovery Platform
Data mining diyelim
Müdür 6
Cloud
Kimi verileriniz ve serverlar cloud’ ta
Müdür 7
BI
BI uygulama ve yazılım geliştirme - raporlama
Müdür 8
vs.vs.vs..


İşte hadoop bu eco system’ de konulardan sadece biri.

Bu müdürlüklerin hiç biri diğerinin yerine ikame etmeyecek.



Soru : Big data ile ilgili hangi pozisyonlar var? İlla kodlama seviyesinde mi ilgilenmek lazım?

            “Bigdata Organizasyon Yapısı -2” blog yazısına ulaşmak için :
                 
·         Hadoop Analyst
·         Hadoop Developer
·         Hadoop Admin
·         Hadoop Architect
·         Data Scientist

Soru : Turkiyede hangi şirketler var big dataya yatırım yapan

Firma ismi verme konusunda çekincelerim var. Buradan yazmak doğru olmaz yani. 

Ama kullanan – proje yapan çok firma var.

Ülkemizde telCo firmaların tamamında büyük – küçük hadoop appliance ve projeler bulunmaktadır.

Bankacılıkta ise benim bildiğim 4 büyük bankada hadoop çözümleri bulunmaktadır.

Kimilerinde atıl durumda kimilerinde ise oldukça bilgili kadrolara sahip yapılar bulunmaktadır.

Domaini bilmediğim sayısız sektörde kullanan vardır tabi ki.

Sonuçta kendi networkümde bildiklerim bunlar.


Soru : Kendi bilgisayarımda big data ile ilgili neler yapabilirim, ne gerekir?

            Öncelikle bu blog yazılarını baştan sona bakabilirseniz adım adım hadoop kurulumları vs. anlatılmıştır.

Örnekler verilmiştir.

Ben kurmak vs. istemiyorum hemen kullanayım – örnekler yapayım diyorsanız sandbox’ ları kullanabilirsiniz.  

Aşağıda birkaç download linki paylaşıyorum.


Kendi makinanızda bir şeyler yaptınız hatta production şeklinde -N- makinali bir cluster kurmak istediniz mesela.  

Bu durumda cloudera manager ile kendi hadoop cluster’ ınızı kurabilirsiniz.


Soru : Big dataya neden ihtiyaç oldu. Alternatif çözümleri yok muydu?
            Big datanın çıkış noktası kullanan firmalar ve bu firmalara sağladığı avantajlar nelerdir?


Hadoop konusu ilk Google mühendisleri ile ortaya çıktı.

Sonra whitepaper yayınlanması ve Doug Cutting’ in çalışmaları ile bizim gibi kullanıcılara yayıldı.

Google ilk çıktığında verilerini geleneksel rdbms’ ler üzerinde tutmadı.

Yani oracle-sql server –teradata-ibm vs.vs. ile anlaşmadı ve bu firmaların databaselerini asıl işlerinde kullanmadı. (lisans ücretleri, pahalı olmaları , google veri ölçeğine göre yetersiz olmaları vs. vs. nedenlerden kullanmadı)

Kendi file sisteminde verilerini tuttu.  (GFS adında = Google File System )

Çünkü elindeki veri geleneksel rdbms’ ler üzerinde tutulması mümkün olmayacak kadar büyük – karmaşık – structure – unstructure – hızlı akan – çok çeşitli veriyi ihtiva ediyordu.

Amaç ise  hacmi büyük – hızlı akan – çok çeşitli veride , hızlı sorgu çekebilmek, verileri ucuz maliyetli olarak storage etmek, her hangi bir firmaya bağımlı kalmamak (rdbms firmalarını kastetiyorum), veri artıkça kolay ve ucuz bir şekilde sadece disk çıkar tak şeklinde cluster’ a yeni makine eklemek vs. vs. nedenlerinden kendi sistemlerini kurdular. 
(düşünsenize kullandığınız rdbms appliance’ ta birkaç diskin bozulduğunu, Hadoop ta bu sorun olmuyor)  

GFS ile veri hem replike olarak tutulmaktaydı.

Yani google’ un clusterlarında binlerce makinada biri bozulsa verinin bir kopyası başka bir makinada yer alacaktı. 
(youtube ‘ tan google data center diye search yapınız. 
Bozulan diskler üzerindeki işlemler gösterilmektedir. 
O anda sistem ve sorgular çalışması devam etmektedir. )

Ve sorgular durmayacak hatta sistem otomatik olarak bozuk diski algılayıp verinin – dosyanın kopyasını başka makinaya alacaktı.

Çekilen sorgular makinalara dağıtılacak (distributed) her bir makinada ki sorgu sonuçları reduce edilip yani bir bakıma toplanıp sonucu verilecekti.

Büyük boyutlu dosyalar 64 ya da 128MB dosyalara bölünecek cluster içindeki makinalara otomatik olarak dağıtılacaktı. Bu işlemler elbette otomatik olmalıydı.

Bir de Google ile özdeşleşen pagerank algoritması. Bu konuya detaylı girmeyeceğim. Yani her şey makine değildi.

İşte bu nedenlerden dolayı Google bu sistemi kurdu sonra bizim gibi son kullanıcılar tarafından da kullanılabilir oldu.


Soru : Big data için en uygun ürün nedir?
Avantajları- dezavantajları nelerdir?
Big data platformları ve çalışma mantığı nedir?

Free yada paralı appliance’ lar kullanabilirsiniz.

Free olanlar apache hadoop ve cloudera manager olanı kendiniz, kendi satın aldığınız server tipindeki makinalara kurabilirsiniz.

“Bigdata Soruları -1” kısmında appliance almak zorunda mıyım? Sorusunda bu konuya biraz değinmiştik.

Paranız varsa ve risk almak istemiyorsanız ve kurulum vs. ben uğraşamam, destek vs. ben veremem, hazır makinalara kurulmuş çözümlere bakıyorsanız paralı yani appliance’ lar kullanabilirsiniz.

Big data için kullanılabilecek ürünler aşağıdadır.
Ürün
Avantaj & Dezavantaj Yorum
Appliance (ibm-teradata – oracle – intel – sas – hp - ms hdinsight – vs.vs firmaları ile anlaşarak bu firmaların makine ve hadoop yazılımları alınabilir.

Avantaj: Destek vs. alabilirsiniz. Kurulu geldiğinden kurulum vs. siz uğraşmazsınız. Hatta versiyon yükseltme vs. uğraşmazsınız.

Dezavantaj: paralı

Cassandra kullanılabilir. Tecrübem olmadığından hakkında yazı ve yorumda bulunamıyacağım.


Free hadoop adını verdiğim apache hadoop veya cloudera manager ile kendi cluster’ ınızı kurabilirsiniz.

Her şey sizin sorumluğunuzda. Kurulumundan versiyon yükseltme ve sorun gidermeye kadar.

Soru : İlerleyen yıllarda firmaların bigdataya geçmesi artacak mıdır? Bu teknolojiye yönelmek ne kadar mantıklı?
Big datanın Türkiye’ deki geleceği

            Dünyada veri boyutu her geçen yıl sürekli logaritmik olarak artmaktadır.

            Bununla ilgili dünyada dakikada şu kadar veri oluşuyor vs. şeklinde çok sunum görmüşsünüzdür.

Google’ da “every minute in bigdata” diye görsellerde search ederseniz tonlarca site karşınıza çıkar
           
Hatta tahminleme kullanılarak 2020-2030 da bilmem şu kadar exabaytes - zettabaytes dünyada veri boyutu olacak şeklinde de paper’ lar vardır.

            Google’ da “bigdata prediction 2020” diye görsellerde search ederseniz yine tonlarca site karşımıza çıkar.


Kendi firmanızda da durum bu şekildedir aslında. 

            Birkaç sene sonra veri ambarınızın boyutu ne olacak?

Yeni disk alınması yada veri ambarınızı migrate vs. etmeyi planlıyor musunuz?

Verinin bu kadar hızlı büyüdüğü bir ortamda sorunuzun cevabı “”””evet bigdata teknolojilerini kullanan firmalarda verinin hızlı artması gibi artacaktır.”” şeklinde cevap verebiliriz.

Teknolojiye geçmek ne kadar mantıklı? Sorusu ise aslında yukarıda cevabını verdim diye düşünüyorum.

Firmalar bir taraftan bigdata müdürlüklerini yavaş yavaş kurmaları gerekiyor.
Teknik insanlar olarak mühendis arkadaşlarımızda bu güne kadar bu konuda çalışmamışsa-okumamışsa onlarında yavaş yavaş konuyu okumaları, gerekirse ellerini kirletmeleri vs. gerekiyor.

Ülkemizde bu konularla uğraşan çok değerleri ve bilgili arkadaşlarımız var.

Ama hala yeterli sayıda olduğunu düşünmüyorum. 

Piyasada yazılım mühendisi – raporlama uzmanı – veri ambarı uzmanı vs. ilan çıktığınızda belki binlerce başvuru alabilirsiniz.

Bir pentatloncu hadoop işiyle uğraşan kişi bulmak gerçekten zor.

Konuya soğuk bakan veya hiç bilmeyen ve bu güne kadar “”ya biz şu big data konusunda hiç çalışmadık belki pek çok problemimizi halledecek bile demeyen”” firmalar var. 

Bir farkındalık oluşturmak gerekiyor aslında.


Not: “Bigdata Soruları -3” sonraki blog yazılarımda devam edeceğim.


Bugünkü blog yazımız bu kadar.


Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.

mmetin


23 Mart 2016 Çarşamba

Teradata Aster Discovery Platform -1


Merhaba,

Bu blog yazımda “TERADATA ASTER DISCOVERY PLATFORM” dan bahsetmek istiyorum.
Aslında ASTER konusunda bir yazı dizisi şeklinde yapmayı planlıyorum. 
Tek bir blog ile bu kadar geniş bir konu bitmez tabi ki. 
Bundan sonraki aster yazı serisinde teknik konulara girip, örnekler yapıp (churn – npath analizleri vs.vs. ) sizin organizasyonunuzda aster konumlanır mı tartışmak ve bilgi vermek isterim.

ASTER konusunda yazma fikrini bu konuda Türkçe bir kaynak benim bildiğim olmadığından ve konu hakkında naçizane bilgilerimi paylaşmak istediğimden yazmak istedim.

Mevcutta kullandığınız analitik ya da discovery tool’ larına belki bir alternatif olup, incelemeniz için ya da aklınızın bir köşesinde ASTER adında bir platform da var, inceleyelim demeniz için ilk başlangıcı yapalım.


Alıntıdır :             Teradata sitesinden
ASTER nedir?
“”The Teradata Aster solution utilizes Aster's patented SQL-MapReduce® to parallelize the processing of data and applications and deliver rich analytic insights through the simplicity of SQL and business intelligence tools. This SQL integration makes Aster easy enough for business analysts, but powerful enough for the most sophisticated data scientists in any organization. “”

            Burada bazı önemli anahtar kelimeleri bold yaptım.  

Aster’ in en büyük avantajlarından biri bir storage ’ a sahip olmasıdır.

Yani siz bir aster appliance aldığınızda size verilerinizin sonradan analitik fonksiyonlarınızın kullanabileceği dataların saklandığı bir disk ortamı sunmaktadır.  
Doğru bir benzetme olur mu bilmiyorum ama anlaşılması için: bu disk ortamı hdfs gibi distributed gibi çalışmaktadır.


Storage olmasının anlamı nedir? 
Free olan bir tool’ dan örnek vereyim ki, paralı ürünleri karşılaştırmamış olayım.

Örneğin siz R kullanmak istediğinizde, R fonksiyonlarını çalıştıracağınız data source sistemlerinde yer almaktadır. 
Mesela hadoop sisteminde yer alır. 
R bir storage ya da kendine ait bir diski yoktur. 
(Artık sizin kullandığınız discovery ya da analitik tool’ unda storage var mı karşılaştırabilirsiniz) 
Aster’ de ise discovery yapılacak veri source sistemlerinden çekilir (etl), aster appliance sistemine aktarılır ve artık verileriniz aster üzerindedir. 
Artık aster üzerinde olan bu verileriniz üzerinde, aster fonksiyonları kullanabilirsiniz.


Kendi diski - storage olmasının avantajı nedir? 
Tüm analitik fonksiyonlar vs. aster sunucularında – appliance üzerinde yapılır. 

Aster anlatılırken sürekli olan bu tool’ un bir discovery platformu olduğundan bahsedilir.
Yani siz en iyi ya da optimum analitik sonucu bulana kadar sürekli olarak veriyi aster üzerinde inceler, fonksiyonları çalıştırır ve nihayetinde bir sonuç bulduktan sonra bu sonucu iş birimleri ile ya da patronlarınız ile paylaşırsınız. 
Bu bir sürekli döngü olarak çalışır. 
Ta ki en iyi – optimum sonucu bulana kadar.  

Siz kaynak taraftan (teradata db, oracle db, sql server db, hadoop, vs.vs), incelenmesini – discovery yapılmasını – analitik fonksiyonları çalıştırmasını istediğiniz verilerinizi aster appliance sistemine atarsınız. 
Organizasyonunuz gereği analitik birimleriniz firmanızda vardır. 
Artık firmanızda ki analitik grubunu verilerin aster ortamında olduğunu ve buradan istenilen discovery işlemleri yapılabileceği belirtilir.

           

ASTER VM Var mi?
Evet var. 
Yani aster nedir bir bakayım, denemeler yapayım diyorsanız aşağıdaki siteden vm yükleyebilirsiniz.  
Kesinlikle vm kullanmanızı ve denemeler yapmanızı tavsiye ederim. 
Gerçekten güzel hazırlanmış bir tutorial bulunmaktadır. 
Step by step aster üzerinde neler yapabileceğiniz anlaşılır ve güzel bir sırayla anlatılmıştır.

            
            Online Library için : http://www.info.teradata.com/HTMLPubs/Aster_6_10/index.html

            Çalışmış olduğum firmada aster ile ilgili bilgi verirken aşağıdaki bilgileri çok            kullanmaktayım.

Aster üzerinde çalışma yapmak istediklerinde “”Kabul Etmemiz Gereken Bazı Ön Bilgiler: “” başlığında aşağıdaki bilgileri paylaşıyorum.

      Aster hadoop değildir.   Analitik fonksiyonları barındıran bir appliance’ dır.

      Aster, teradata firmasının hadoop çözümü değildir.

      Teradata firmasının hadoop appliance’ ı ayrıdır.  Hortonwork dağıtımını kullanır.

      Aster’ e veriyi hem dbms’ lerden hem de istenilen hadoop vs. ortamından veri aktarımı yapılabilir.

      Aster bir discovery platformudur.

      Discovery, teradata aster ile bir çeşit veri keşfi yapılır.

      Discovery işlemlerinde döngüsel olarak veri aktarımı, veri incelemesi, veri keşfi sürekli gerçekleştirilir.

      Aster’ e discovery için aktarılan veriler, veri keşfi sonunda silinebilir. 
     Artık bir sonuca varılmıştır ve bu sonuç iş birimlerine rapor olarak sunulur. 
    Yeni bir analiz işlemi için aster’ de bulunan veriler silinebilir ve yeni aktarımlar yapılabilir.


Burada bold olarak işaretlediğim maddeler aster’ in asıl işini yansıtmaktadır. Aster ile birlikte discovery , döngüsel işlem vs. çok kullandığımız terimlerdir.
Nedir bu discovery – döngüsel yapı?


Kendi diski - storage olmasının avantajı nedir?  başlığı altında değinmiştim.  

“”“Aster anlatılırken sürekli olan bu tool’ un bir discovery platformu olduğundan bahsedilir. 
Yani siz en iyi ya da optimum analitik sonucu bulana kadar sürekli olarak veriyi aster üzerinde inceler, fonksiyonları çalıştırır ve nihayetinde bir sonuç bulduktan sonra bu sonucu iş birimleri ile ya da patronlarınız ile paylaşırsınız. 
Bu bir sürekli döngü olarak çalışır. Ta ki en iyi – optimum sonucu bulana kadar.  “”


Resimden de anlaşılacağı üzere sırayla tüm adımlar step by step yapılır. 
En iyi çözümü – sonucu – çıktıyı – faydalı görülen çıktı bulunana kadar bu adımlar döngüsel olarak devam eder. 
Buna discovery süreci de denir. Aslında aster’ de bir discovery süreci işlemektedir.


            Belki de en önemli ve en can alıcı soruya geldik.
            Neden Ticari Bir Ürün Kullanayım?

Piyasada hem free hem de paralı olan analitik - istatistik ve discovery tool’ ları bulunmaktadır. 
Free’ ler benim bildiğim R – weka –rapidminer vs.vs. , paralı olanlar ise sas, spss vs.vs.  
Bu soruya cevap verirken aster tarafından olaya bakmadan diğer free ve paralı ürünleri düşünerek cevap aramamız lazım. 
Sizin firmada neden paralı ürün kullanılıyor? 
Siz free tool’ larla en önemlisi kendiniz custom bir şeyler yazarak analitik-istatistik-discovery işlemleri yapamaz mısınız?

Sorunun cevabı basit aslında. 
Ticari ürünlerde destek vardır, bir şeyleri yapamazsanız soracağınız bir firma elemanı vardır (muhatabınız vardır), pek çok işinizi kolaylaştıran fonksiyonları vardır, diğer ticari ürünlerle entegredir (raporlama tool’ ları, rdbms vs.vs) vs. vs.  
Çok fazla detaya girmeyeceğim.

Peki neden aster? Aster neyi kolaylaştırmaktadır?
Kendi eğitim notlarımda da kullandığım aşağıdaki slaytı paylaşıyorum.


Hikayeleştirme ile olayı anlatayım.

Eski blog yazılarımı takip edenler bilirler.

Pentatloncu olarak tarif ettiğim hadoop’ cu arkadaşımıza patronları şunu söyler:

“”“hadoop’ a aktardığın ve hive-impala-spark ile sorgu sonuçlarını paylaştığın ve path analizine de uygun olan bu verimizi yukarıda görüldüğü şekilde bir grafik yapıp üst yönetime sunalım. 
Yani müşteri datamızda, müşterilerimizin son -N- haretini al ve müşteri davranışını ya da churn durumun gösterir yukarıdaki gibi bir grafik ile bize sunum yap!”””
                       
Slaytta görüleceği üzere bunu tek bir sql statement ile yapmak aster’ de mümkündür.
 Select * from nPathViz…. 
ile devam eden ve eski alışık olduğumuz sql syntax’ ına çok benzeyen bir yapı ile grafikleri ve sonuçları yapmanız mümkündür.Yanı tıpkı hive gibi select yazıyorsunuz arka planda bu otomatik map-reduce çevrilmektedir. 


Aster’ de Kullanabileceğim Fonksiyonlar Nelerdir?

            Aşağıda listesini paylaştığım başlıklar altında asterde fonksiyonlar yer almaktadır.

·         Time Series, Path, and Attribution Analysis
·         Pattern Matching with nPath
·         Statistical Analysis
·         Text Analysis
·         Cluster Analysis
·         Naive Bayes
·         Decision Trees
·         Association Analysis
·         Graph Analysis
·         Data Transformation



Eğer bu konuda çalışma yapmak isterseniz: 
sizlere naçizane tavsiyem, aster VM indirin ve ellerinizi kirletin. 
Yine bunu mühendisçe ölçüm yöntemlerinizle artılarını – eksiklerini – firmanıza uygun mu? – işlerinize uygun mu? PoC şeklinde çalışmalar yapın.  

ASTER konusunu tek bir blog yazısına sığdırmak haksızlık olur. Bu konuda daha çok yazılarım olacaktır. 

İlk başlangıcı yapmış olduk.


Bugünkü blog yazımız bu kadar.


Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.

mmetin