1 Eylül 2016 Perşembe

HADOOP - ETL İŞLEMLERİ NASIL YAPILIR? -1


Merhaba,
Bugünkü blog yazımın çok önemli olduğunu düşünüyorum.
Başlıkta anlaşılması için etl yazdım. Ama bugünkü blog yazımızın konusu genel anlamda hadoop sistemlerine veri aktarımı yaklaşımları olacaktır.
Blog yazımı 2 bölüm halinde yayınlayacağım.
İlk yazımda sorularımız ikinci blog yazımda soruların cevapları naçizane bulunacaktır.
İlkine başlayalım.
Şirketlerinde – projelerinde hadoop kullanmaya karar verdikten sonra kurulum işlemini bir şekilde hallediyorsunuz. Ya free dediğimiz ürünleri kullanıyorsunuz Örneğin: apache hadoop veya cloudera manager ile enterprise olmayan free ürünü kullanabilirsiniz. Ya da commercial ürünler yani appliance ürünler de kullanırsanız. Bu durumda anahtar çözüm olarak size makine + hadoop yazılımları gelecektir.
Kurulumları yada hadoop satın almaları yaptıktan sonra, hadoop ürünlerinizin şirketinizde teknoloji çöplüğüne dönüşmemesi için, yani atıl durumda kalmaması için artık  hadoop’ u kullanmanız gerekmektedir.
Buradaki en önemli işlerden biri de veri aktarımlarınızın hadoop ürününe yapılmasıdır.
Yani temel sorumuz:  “Hadoop’ a veri aktarımı nasıl yapılır?”
Veriyi aktaralım ki hadoop’ un nimetlerinden faydalanalım.
Tekrar Açısından; Nedir Bu Nimetler?
·        Verilerimiz 3 replika olarak hadoop sisteminde tutulur. Yani yedekli bir sistemdir. Her hangi bir datanode’ taki disk bozulursa verileriniz kaybolmaz.
·        Büyük boyutlu ve daha önce pek sorgulamadığımız-analiz-analitik işlemler yapmadığımız structural-unstructural-semi structural vs. veriler üzerinde sorgulama işlemleri yapabilecek duruma – imkana erişebileceksiniz.
vs.vs. diğer blog yazılarımı takip edenler bu maddelerin daha da çok olduğunu bilmektedirler.
Asıl konumuz dışına çok çıkmadan devam edelim.
Şirketinizde hadoop kurulumları yapıldıktan sonra veri aktarma işlemi kısmında aşağıdaki soruları sorulmaktadır.
Hadoop’ a Veri Aktarımı İle İlgili Temel Sorular:
·        Veri aktarımını hadoop’ a nasıl yapacağım?
·        Ftp ortamında ham text dosyalarımız var. Bunları hadoop’ a nasıl aktaracağım?
·        X makinası log dosyaları üretmektedir. Bu dosyaları hadoop ortamına nasıl aktaracağım? (X makinası: hastane otomasyonlarında laboratuvar makinaları, telco sektöründe cdr-görüşme loğları vs. vs.)
·        Şirket bünyesinde ODI-Informatica-Pentaho-SSIS vs.vs. gibi etl araçları kullanıyoruz. Bu ürünleri veri aktarımlarında nasıl kullanırım? Yada tersi durum ile bu ürünleri şirket bünyesinde kullanmıyoruz-satın almakta istemiyoruz. Etl tool’ u kullanmadan hadoop’ a veri aktarımı mümkün değil mi? Bu ürünler olsa da olmasa da kullanmak zorunda mıyım?
·        Şirket bünyesinde kullandığımız oracle-teradata-sql server-db2 vs.vs. gibi veri tabanlarında yer problemi yaşıyoruz. Eski tarihli verileri hadoop ortamına atıp hem bu veritabanlarından yer kazanmak hem de verilerimizi yedeklemek, hem de yedekli verilerimizi ihtiyaç olursa hadoop’ tan sorgulamak istiyoruz. Oltp-dwh sistemlerinden hadoop’ a veri aktarımını nasıl yaparım?
Sorular artırılabilir tabi. Mesela stream verisi-real time verisi vs. vs. nasıl aktarılmalı şeklinde. Bu konu ile ilgili yazılarım olacağını önceki blog yazılarımda da belirtmiştim. Kısa bir konu değil yani.
İkinci blog yazımızda soruların cevaplarını, benim nasıl yaptığımı, artıları eksileri ile aklımdaki tüm metotları yazacağım.

Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin