Merhaba,
Bugünkü blog yazımın çok önemli
olduğunu düşünüyorum.
Başlıkta anlaşılması için etl
yazdım. Ama bugünkü blog yazımızın konusu genel anlamda hadoop sistemlerine
veri aktarımı yaklaşımları olacaktır.
Blog yazımı 2 bölüm halinde
yayınlayacağım.
İlk yazımda sorularımız ikinci blog
yazımda soruların cevapları naçizane bulunacaktır.
İlkine başlayalım.
Şirketlerinde – projelerinde hadoop
kullanmaya karar verdikten sonra kurulum işlemini bir şekilde hallediyorsunuz.
Ya free dediğimiz ürünleri kullanıyorsunuz Örneğin: apache hadoop veya cloudera
manager ile enterprise olmayan free ürünü kullanabilirsiniz. Ya da commercial ürünler
yani appliance ürünler de kullanırsanız. Bu durumda anahtar çözüm olarak size makine
+ hadoop yazılımları gelecektir.
Kurulumları yada hadoop satın
almaları yaptıktan sonra, hadoop ürünlerinizin şirketinizde teknoloji çöplüğüne
dönüşmemesi için, yani atıl durumda kalmaması için artık hadoop’ u kullanmanız gerekmektedir.
Buradaki en önemli işlerden biri de
veri aktarımlarınızın hadoop ürününe yapılmasıdır.
Yani temel sorumuz: “Hadoop’ a veri aktarımı nasıl yapılır?”
Veriyi aktaralım ki hadoop’ un
nimetlerinden faydalanalım.
Tekrar
Açısından; Nedir Bu Nimetler?
·
Verilerimiz 3 replika olarak hadoop sisteminde tutulur. Yani yedekli
bir sistemdir. Her hangi bir datanode’ taki disk bozulursa verileriniz
kaybolmaz.
·
Büyük boyutlu ve daha önce pek sorgulamadığımız-analiz-analitik
işlemler yapmadığımız structural-unstructural-semi structural vs. veriler üzerinde
sorgulama işlemleri yapabilecek duruma – imkana erişebileceksiniz.
vs.vs. diğer blog yazılarımı takip
edenler bu maddelerin daha da çok olduğunu bilmektedirler.
Asıl konumuz dışına çok çıkmadan
devam edelim.
Şirketinizde hadoop kurulumları
yapıldıktan sonra veri aktarma işlemi kısmında aşağıdaki soruları sorulmaktadır.
Hadoop’
a Veri Aktarımı İle İlgili Temel Sorular:
·
Veri aktarımını hadoop’ a nasıl yapacağım?
·
Ftp ortamında ham text dosyalarımız var. Bunları hadoop’ a nasıl
aktaracağım?
·
X makinası log dosyaları üretmektedir. Bu dosyaları hadoop
ortamına nasıl aktaracağım? (X makinası: hastane otomasyonlarında laboratuvar
makinaları, telco sektöründe cdr-görüşme loğları vs. vs.)
·
Şirket bünyesinde ODI-Informatica-Pentaho-SSIS vs.vs. gibi etl
araçları kullanıyoruz. Bu ürünleri veri aktarımlarında nasıl kullanırım? Yada tersi
durum ile bu ürünleri şirket bünyesinde kullanmıyoruz-satın almakta
istemiyoruz. Etl tool’ u kullanmadan hadoop’ a veri aktarımı mümkün değil mi? Bu
ürünler olsa da olmasa da kullanmak zorunda mıyım?
·
Şirket bünyesinde kullandığımız oracle-teradata-sql server-db2
vs.vs. gibi veri tabanlarında yer problemi yaşıyoruz. Eski tarihli verileri
hadoop ortamına atıp hem bu veritabanlarından yer kazanmak hem de verilerimizi
yedeklemek, hem de yedekli verilerimizi ihtiyaç olursa hadoop’ tan sorgulamak
istiyoruz. Oltp-dwh sistemlerinden hadoop’ a veri aktarımını nasıl yaparım?
Sorular artırılabilir tabi. Mesela stream
verisi-real time verisi vs. vs. nasıl aktarılmalı şeklinde. Bu konu ile ilgili
yazılarım olacağını önceki blog yazılarımda da belirtmiştim. Kısa bir konu
değil yani.
İkinci blog yazımızda soruların
cevaplarını, benim nasıl yaptığımı, artıları eksileri ile aklımdaki tüm metotları
yazacağım.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin