1 Eylül 2016 Perşembe

HADOOP - ETL İŞLEMLERİ NASIL YAPILIR? -1


Merhaba,
Bugünkü blog yazımın çok önemli olduğunu düşünüyorum.
Başlıkta anlaşılması için etl yazdım. Ama bugünkü blog yazımızın konusu genel anlamda hadoop sistemlerine veri aktarımı yaklaşımları olacaktır.
Blog yazımı 2 bölüm halinde yayınlayacağım.
İlk yazımda sorularımız ikinci blog yazımda soruların cevapları naçizane bulunacaktır.
İlkine başlayalım.
Şirketlerinde – projelerinde hadoop kullanmaya karar verdikten sonra kurulum işlemini bir şekilde hallediyorsunuz. Ya free dediğimiz ürünleri kullanıyorsunuz Örneğin: apache hadoop veya cloudera manager ile enterprise olmayan free ürünü kullanabilirsiniz. Ya da commercial ürünler yani appliance ürünler de kullanırsanız. Bu durumda anahtar çözüm olarak size makine + hadoop yazılımları gelecektir.
Kurulumları yada hadoop satın almaları yaptıktan sonra, hadoop ürünlerinizin şirketinizde teknoloji çöplüğüne dönüşmemesi için, yani atıl durumda kalmaması için artık  hadoop’ u kullanmanız gerekmektedir.
Buradaki en önemli işlerden biri de veri aktarımlarınızın hadoop ürününe yapılmasıdır.
Yani temel sorumuz:  “Hadoop’ a veri aktarımı nasıl yapılır?”
Veriyi aktaralım ki hadoop’ un nimetlerinden faydalanalım.
Tekrar Açısından; Nedir Bu Nimetler?
·        Verilerimiz 3 replika olarak hadoop sisteminde tutulur. Yani yedekli bir sistemdir. Her hangi bir datanode’ taki disk bozulursa verileriniz kaybolmaz.
·        Büyük boyutlu ve daha önce pek sorgulamadığımız-analiz-analitik işlemler yapmadığımız structural-unstructural-semi structural vs. veriler üzerinde sorgulama işlemleri yapabilecek duruma – imkana erişebileceksiniz.
vs.vs. diğer blog yazılarımı takip edenler bu maddelerin daha da çok olduğunu bilmektedirler.
Asıl konumuz dışına çok çıkmadan devam edelim.
Şirketinizde hadoop kurulumları yapıldıktan sonra veri aktarma işlemi kısmında aşağıdaki soruları sorulmaktadır.
Hadoop’ a Veri Aktarımı İle İlgili Temel Sorular:
·        Veri aktarımını hadoop’ a nasıl yapacağım?
·        Ftp ortamında ham text dosyalarımız var. Bunları hadoop’ a nasıl aktaracağım?
·        X makinası log dosyaları üretmektedir. Bu dosyaları hadoop ortamına nasıl aktaracağım? (X makinası: hastane otomasyonlarında laboratuvar makinaları, telco sektöründe cdr-görüşme loğları vs. vs.)
·        Şirket bünyesinde ODI-Informatica-Pentaho-SSIS vs.vs. gibi etl araçları kullanıyoruz. Bu ürünleri veri aktarımlarında nasıl kullanırım? Yada tersi durum ile bu ürünleri şirket bünyesinde kullanmıyoruz-satın almakta istemiyoruz. Etl tool’ u kullanmadan hadoop’ a veri aktarımı mümkün değil mi? Bu ürünler olsa da olmasa da kullanmak zorunda mıyım?
·        Şirket bünyesinde kullandığımız oracle-teradata-sql server-db2 vs.vs. gibi veri tabanlarında yer problemi yaşıyoruz. Eski tarihli verileri hadoop ortamına atıp hem bu veritabanlarından yer kazanmak hem de verilerimizi yedeklemek, hem de yedekli verilerimizi ihtiyaç olursa hadoop’ tan sorgulamak istiyoruz. Oltp-dwh sistemlerinden hadoop’ a veri aktarımını nasıl yaparım?
Sorular artırılabilir tabi. Mesela stream verisi-real time verisi vs. vs. nasıl aktarılmalı şeklinde. Bu konu ile ilgili yazılarım olacağını önceki blog yazılarımda da belirtmiştim. Kısa bir konu değil yani.
İkinci blog yazımızda soruların cevaplarını, benim nasıl yaptığımı, artıları eksileri ile aklımdaki tüm metotları yazacağım.

Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin

24 Mayıs 2016 Salı

FLUME-3C


Merhaba,
Önceki FLUME-1, FLUME-2 ve FLUME3A-3b blog yazımız ile flume’ a giriş yapmış, örnek gerçekleştirmiş ve planımızı sunmuştum.




Bu blog yazımda “Flume – 3C” kısmına devam etmek istiyorum.  
Bir önceki blog yazımda https://apps.twitter.com/
Adresinden  4 adet guid numarasına benzer bilgileri almayı görmüştük.
Bunlar:  Consumer key: *   Consumer secret: *    Access token: *    Access token secret: *
Bu adresten istediğiniz kadar application oluşturup istediğiniz kadar token alabilirsiniz.
Şimdi bu token’ ları kullanarak nihai amacımız olan twitter okyanusundan kendi belirlediğimiz keyword – filter ile dinleme işine bakalım.
Yine adım adım nasıl işlemler yaptığımızı aşağıda anlatmaya çalıştım.
Twitter Dinlemek için  Gerekli Jar Dosyası Download Edilir:

flume-sources-1.0-SNAPSHOT.jar
jar dosyasını internetten bulup download edilir.

Bulacağınız bu jar dosyası sorunlu olabilir.

Bunun için aşağıdaki link bakmanızı tavsiye ederim.


cd cdh-twitter-example
cd flume-sources
mvn package


Burada son src dosyası download edilir ve mvn package ile tekrar deploy edilip …/cdh-twitter-example/flume-sources/target  klasöründe bulunan
flume-sources-1.0-SNAPSHOT.jar dosyası  /usr/lib/flume-ng/lib   klasörüne atılmalıdır.

Peki bu jar dosyası nedir?
Bu jar dosyası Twitter4j kütüphanesini kullanan flume ile entegre edebileceğiniz bir jar dosyasıdır.

Twitter Verilerinin Atılacağı Dizinler ve Haklar yapılır:
[cloudera@quickstart target]$ hadoop dfs -mkdir /user/twitterdinle
[cloudera@quickstart target]$ hadoop dfs -chmod 777 /user/twitterdinle

flume.conf  Dosyası Düzenlenir:

Flume-1 ve Flume-2 yazılarımı okuyanlar hatırlayacaklardır. Flume.conf dosyası nedir? Nasıl düzenlenir bloglarımda bahsetmiştim.

Benim sistemde aşağıdaki klasörleri kullanmıştım.
flume.conf dosyası düzenlenir yada yeniden create edilir.

/home/cloudera/Desktop/islemler/flume.conf

Bu dosya düzenlenir.

Twitter’ dan Dinlemek İstediğimiz Kelime Seçilir:

Ben ‘murat’ kelimesini seçtim mesela.
Bunu aşağıdaki satır ile belirtiyoruz.

TwitterAgent.sources.Twitter.keywords = murat

Twitter sayfasından aldığınız token bilgileri ilgili satırlara girilmelidir.
Bu token bilgilerini kimse ile paylaşmayınız.
Sonuçta sizin kullanıcınız ile alınan token ile twitter dinleme işi yapılabilir.

TwitterAgent.sources.Twitter.consumerKey=xxxxxxxxxxxx
TwitterAgent.sources.Twitter.consumerSecret=xxxxxxxxxxxxx
TwitterAgent.sources.Twitter.accessToken=xxxxxxxxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxxxxxxxxxx


Dinlenen twitter bilgisi hdfs sisteminde nereye yazılacak?
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:8020/user/twitterdinle


flume.conf  dosyasının tamamı aşağıdadır.


TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS

TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sources.Twitter.consumerKey=xxxxxxxxxxxx
TwitterAgent.sources.Twitter.consumerSecret=xxxxxxxxxxxxx
TwitterAgent.sources.Twitter.accessToken=xxxxxxxxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxxxxxxxxxx

TwitterAgent.sources.Twitter.keywords = murat

TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:8020/user/twitterdinle
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000

TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100

Tanımlamaları aslında bitirdik.
Bundan sonra flume agent’ ı çalıştırmak işi kalıyor.
Çalıştırma işinde bir hata almazsanız hdfs sisteminde hdfs://localhost:8020/user/twitterdinle klasörüne bakarak twitlerin akmaya başladığını görmelisiniz.
Flume Agent Çalıştırılması ve Artık Twitter Dinlemeye Başlıyoruz:
Aşağıdaki satırı aynen terminal üzerinden çalıştırınız.
Burada TwitterAgent ifadesini flume.conf dosyasından geldiğini tekrar hatırlatırım. Bir alias gibidir. İsmini istediğiniz gibi verebilirsiniz.

[cloudera@quickstart islemler]$ flume-ng agent --conf-file /home/cloudera/Desktop/islemler/flume.conf Dflume.root.logger=DEBUG,console -n TwitterAgent

Eğer bir sorun olmazsa aşağıdaki ekran görüntüsünü almanız gerekiyor.

Yani “Establishing connection" ifadesini görmemiz lazım.

Twitter account’nuz ile twit girebilirsiniz ve hdfs sistemine bu twitlerin hatta sadece sizin değil tüm twitter okyanusunda yer alan içinde “murat” geçen tüm twittleri toplamaya başladınız.

Hue filebrowser dan baktığınızda twitler düşmeye başladı mı?



Dosya tıklanarak json datası ve içinde "murat" geçen twitleri görebilirsiniz.
Twitter bilgisini nasıl kullanmak istediğinize göre değişerek: Bundan sonrası bu json formatındaki dosyadan sorgulamalar vs. yapabilirsiniz.
Bir web uygulaması yaparak hdfs sistemine düşen ve dinlediğiniz twitleri gösterir bir uygulama yazabilirsiniz.
Gelen twittleri kategorize ederek acil eylem yapmanız gereken twittleri belirleyebilirsiniz. Hatta buradan near real time bir uygulama yada cep – complex event processing vs. kullanarak güzel uygulamalar gerçekleştirebilirsiniz.
Hive ile twitter json datası üzerinde sorgu çekebilirsiniz.
  
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin

2 Mayıs 2016 Pazartesi

FLUME – 3B


Merhaba,
Önceki FLUME-1, FLUME-2 ve FLUME3A blog yazımız ile flume’ a giriş yapmış, örnek gerçekleştirmiş ve planımızı sunmuştum.




Bu blog yazımda “Flume – 3B” kısmına devam etmek istiyorum.  
Twitter verilerini belirlediğiniz filter-keyword’ lere göre dinlemek için: twitter’ ın aşağıdaki sitesinden kendi twitter account’ ile access token tanımlamaları almanız gerekir.
Bu “access token” bilgilerini bir sonraki FLUME-3C blog yazısında flume içinde kullanıp istediğiniz filter-keyword’ leri twitter sisteminden alıp kendi hdfs sistemine yazmayı paylaşacağım.

Adım adım ekran görüntüleri ile devam edelim.

https://dev.twitter.com/apps/  adresinden tweet hesabı ile girilir.


Kullanıcı adı ve şifre ile girdikten sonra Create a new application butonuna basılır.


Aşağıda kırmızı ile işaretli kısımlar doldurulur.

Bir sonraki ekranda yer alan Consumer Key ve Consumer Secret değerlerinin yani kırmızı ile işaretli kısımlarda guid numarasına benzer bilgi olmalıdır. Bu bilgileri not ediniz.


Aslında ihtiyacımız olan 4 bilgiyi twitter’ dan almış olduk.
Bunlar:
Consumer key: *
Consumer secret: *
Access token: *
Access token secret: *

Bu 4 bilgiyi flume içinde kullanıp, belirleyeceğiniz filter-keywordleri twitterdan dinleme işini FLUME-3C blog yazısında paylaşacağım.

Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin


17 Nisan 2016 Pazar

FLUME – 3A


Merhaba,
Önceki FLUME-1 ve FLUME-2 blog yazımız ile flume’ a giriş yapmış, örnek gerçekleştirmiş ve planımızı sunmuştum.


Yazıya ulaşmak için : http://bigdatayazilari.blogspot.com.tr/2016/04/flume-2.html

Planım Aşağıdadır:

Flume – 1 Blog Yazımda :
·                Flume nedir?
·                Ne amaçla kullanılır?
·                Nasıl Kurulur?
·                Konfigürasyon – Yapılandırma işlemleri nasıl yapılır?

Flume – 2 Blog Yazımda:
·                  Birkaç örnek yapılacaktır.  (“vmstat -1” , “tail –f file” )

Flume – 3 Blog Yazımda:
·                Twitter dinleme kapsamlı şekilde anlatılıp yapılacaktır.

Flume – 4 Blog Yazımda:
·                Flume ve kafka entegrasyonu


Bu blog yazımda “Flume – 3A” kısmına devam etmek istiyorum.  
Ancak twitter işlemleri anlatımı uzun olacağından flume-3 kısmını A, B ve C olmak üzere üç ayrı blog yazısı ile tamamlayacağım.

Twitter dinleme ve bunları hadoop ortamına atma, buradan da işlemler yapma ile ilgili internette örnekler bulabilirsiniz.
Ben de bu örnekler üzerinden gideceğim.
Piyasada hadoop – big data sunumları ve anlatımları istendiğinde ülkemizde bu işi yapan firmaların ilk verdikleri örnek “twitter verilerini dinleyelim ve hadoop ortamlarınıza aktaralım” şeklindedir.
Ülkemizde sosyal medya, sosyal medya programı vs. adı altında oldukça fazla uygulama sunan firmalar bulunmaktadır.
Bu firmalardan da profesyonel bir sosyal medya uygulamaları vs. satın alabilirsiniz.

Twitter Verilerini Dinlemek Nedir?
Konuyla ilgili sunum ve anlatım yaptığımda aşağıdaki benzetmeyi çok kullanıyorum.
Twitter verileri bir okyanus gibi.
İçinde her türlü konunun – konuşmanın – bilginin – vs.  olduğu bir okyanus gibidir.
Sizler de kendi firmanız hakkında, rakip firma hakkında ya da istediğiniz bir konu hakkında vs. bilgileri almak için twitter okyanusuna bir ağ atıyorsunuz ve ihtiyacınız olan kısmı alıyorsunuz.
İşte bu ağ nasıl atılır ve veriler nasıl çekilir bu blog yazı dizisiyle anlatılacaktır.
Gelelim blog yazımıza: Twitter verileri nasıl dinlenir? Twittler hadoop ortamına nasıl aktarılır vs. ile ilgili etrafımdan da çok soru gelmektedir.
Aslında bunlar teknik olarak zor olmayan, internetten bulunacak birkaç örnek ile çok rahat kodlama yapabileceğiniz ortamlar bulunmaktadır.
Bence asıl soru şunlar olmalıdır? Twitter verisi ne işimi yarayacak? Twitter verisi ile neler yapabilirim? Ne tür analizler gerçekleştirebilirim?
Bu sorularımızı kategorize ederek çok detaya girmeden(sosyal medya nedir? Ne işe yarar? vs.vs. kısımlarına çok girmeden) aşağıda cevaplarını bulmaya çalışalım.
Teknik Arkadaşlarımızın Soruları:
·        Twitter verileri nasıl dinlenir?
·        Twitter verileri hadoop ortamına ya da kendi veritabanlarımıza nasıl aktarılır?
·        Twitter verilerini real time ya da near real time nasıl dinlenir ve aksiyon alınır?
Cevaplar:
      Twitter verilerini dinlemenin benim bildiğim 2 temel yolu vardır.
Birinci Yöntem:
Twitter firması ile anlaşmalı ve direkt olarak twitterdan geçmişe yönelik de veri çekebilen firmalar vardır.
Ben iki tanesini biliyorum. İnternetten search ederseniz bir çok firma bulabilirsiniz.
Bu firmalar sizin uygulama vs. yazmadan istediğiniz keywordlere göre yapacağınız anlaşma gereği twitter başına para alarak bu verileri sunmaktadır.
Ayrıca artı bir özelliği olarak geçmişe yönelik verilerede erişim sağlanmaktadır. Yani bir yıl öncesinden firmam ile ilgili çıkmış reklam ile ilgili twitleride istiyorum diyebilirsiniz.
Yani bu firmalar ile sözleşme imzalarsınız ve twitter verilerine erişirsiniz.
İkinci Yöntem:
Kendiniz bir uygulama yazarak, free şekilde twitter verilerine erişebilirsiniz.
Bunun için twitter firması tarafından sağlanan Twitter4J api kütüphanesini kullanırsınız.
Bu api free’ dir.
Peki paralı yöntem olan birinci yöntem ile farkları nedir?
Twitter4j ile geçmişe yönelik bir sorgulama yapamazsınız.
Ayrıca twitter dinleme sonucu gelen kayıt sayısı belirli bir süre için sınırlıdır.
Fakat bu sınırı geçmek güçtür.  
Hatırladığım kadarıyla 15 dk. 18 bin twit için twitter4j kullanılabiliyor.
Bu rakam belki değişmiş olabilir.
Fakat 15 dk. 18 bin twit gerçekten ciddi bir rakamdır.
Firmanızı ve hatta rakip firmaları, kampanyaları vs. dinlemeye başladığınızda belki günlük 2-3 bin twiti bile aşamayacaksınız.
İkinci yöntemde flume ile twitter4j api entegre ederek çalıştırabileceğiniz bir yapı da bulunmaktadır.
Biz örneğimizi basit anlamda bir flume ile dinleyerek yapacağız.
     
İş Birimlerin - Analizcilerin – Müdürlerimizin – Karar Alıcıların vs. Soruları:
            Twitter verisi ne işime yarayacak?
            Twitter verisi ile neler yapabilirim?
            Twitter verisi ile ne tür analizler yapabilirim?
Cevaplar:
Twitter verileri ile ya da sosyal medya verileri ile piyasada sizin firma hakkında neler düşünülüyor – tartışılıyor – konuşuluyor öğrenebilirsiniz.
Firmanızın imajı – kampanayalar – çıkan reklamların piyasadaki etkisini – beğenilmiş mi? öğrenebilirsiniz.
Rakip firmaları da dinleyerek firmanız ile çoğu konuyu mukayese edebilirsiniz.
Türkçe’ mizin zorluğundan da kaynaklansa sentiment analizlerini twitter verileri üzerinde yapabilirsiniz. Gelen twitlerin duygusu pozitif mi? negatif mi? ölçebilirsiniz.
(ayrı bir parantez açarak yüzde yüz, yüzde 90’ ın üzerinde sentiment analizlerini doğru yapıyorum diyenlere kuşku ile yaklaşınız.
Bir örnek verelim. Sizce aşağıdaki twit sizin adınıza pozitif mi negatif mi?
“”ABCD firması manyak bir ürün çıkarmış! Peh!”
 Burada sona konulan peh kelimesi ayrıca iki tane ünlemin olması ve “manyak” kelimesi olumlu mu? Olumsuz mu? İğneleme mi? Alay etme mi? kinaye mi? vs.vs. şeklinde tartışsak çok sonuç çıkacaktır. )

Twitter Verilerinin Big Data ile Ne İlgisi Var?
            Bigdata’ yı anlatırken 3V + 1V ’ den bahsetmiştik.
            Twitter bu 3V+1V ‘ ye uygun mu bakalım?
Volume – Hacim , Velocity – Hız , Variety - Çeşitlilik :
Twitter verilerin hacmi oldukça fazladır.
            Konuyla ilgili internette pek çok istatistik bulabilirsiniz.
Ülkemizde benim bildiğim kabaca: 12 milyonun üzerinde twitter kullanıcısı, 6 milyonu aktif şekilde kullanıyor, günlük 14 milyon twit gönderiliyor.  
Günlük sadece ülkemizde akan twit sayısı bile çok fazla. Yani hız bakımından da bigdata’ ya uygun bir konu.
Ayrıca twit verileri json data şeklinde tutmaktadır.
Alışık olduğumuz tablo yapısı şeklinde değildir.
Son V-Value –Değer kısmını ise “Twitter Verileri Ne İşimize Yarayacak?” sorularında cevap aramıştık.

Bir sonraki FLUME-3B yazısında twitter verilerini dinlemek için https://dev.twitter.com/apps/  adresinden twitter access token almayı ekran görüntüleri ile göstereceğim.
Flume – 3C yazısında bu access token’ ları flume ile kullanarak istediğiniz keywordleri hadoop hdfs ortamına aktaracağız.
  
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin


6 Nisan 2016 Çarşamba

Teradata Aster Discovery Platform -2


Merhaba,
Bundan önceki ASTER  blog yazımda aşağıdaki sorulara cevap aramıştık.
·        Aster Nedir?
·        Aster’ de Storage Olmasının Anlamı Nedir?
·        Kendi Diski - Storage Olmasının Avantajı Nedir? 
·        Aster Virtual Machine
·        Aster’ de ”Kabul Etmemiz Gereken Bazı Ön Bilgiler
·        Discovery – Döngüsel Yapı Nedir?
·        Neden Ticari Bir Ürün Kullanayım?
·        Aster’ de Kullanabileceğim Fonksiyonlar Nelerdir? 
Önceki blog yazıma ulaşmak için:
Bu blog yazımda aster’ de kullanılan temel 4 grafikten- diyagramdan bahsetmek istiyorum.
Elbette aster’ de sadece 4 grafik yok. Bundan daha fazlası var. Fakat bu bloğumda en çok kullanacağız 4 tanesinden bahsedeceğim.

Yine ilk blog yazımda discovery – döngüsel yapıyı anlatırken “Çıktısını İncele…” şeklinde son maddeyi yazmıştım.
Bu adım aslında yapmış olduğunuz veri keşfi sırasında elde edeceğiniz çıktı – ürün – nihai sonuç – proje sonu çıktısı – veri keşfi pattern’ i, modeli’ dir.
Aster’ de yapmış olduğunuz çalışmanın sonucunu, iş birimlerine ve ya müdürlerinize sunağınız kısımdır.
Peki Aster’ de verebileceğiniz bu çıktılar nelerdir?
Yukarıda yazdığım gibi bu blog yazıma özel 4 tanesinden bahsedeceğim.

Önemli bir bilgi :
Grafikler etkileşimli, dril down, zoom in out şeklinde çalışmaktadır.

Sankey Grafiği - Diyagramı:
Aster için bir demo – tutorial – PoC istediğinizde ilk olarak sunulan çalışmalardan biridir sankey diyagramı.

Path analizleri için birebirdir ve oldukça başarılıdır. 

Aster’ ın başarılı olduğu path analizlerin çıktısını sankey diyagramları ile oluşturabilirsiniz.
Örnekler vererek grafiğin nasıl okunduğunu anlatmaya çalışalım.
·        Churn eden müşteri topluluğun, churn etmeden önceki N hareketi nedir ve nasıl bir dağılım göstermiş sorularına cevap bulursunuz.
Müşteriniz churn etmeden önceki izlemiş olduğu yolları – path’ leri görebilirsiniz. Böylece buradan bir pattern – desen elde edersiniz.
Yani müşteriler şu şu hareketleri ve ya izleri bıraktıktan sonra yüzde 80’ i churn etmektedir sonucunu iş birimlerine – müdürlerinizle paylaşırsınız.
·        Fraud analizleri için kullanılabilecek bir diyagram türüdür sankey yada path analizi.
Bu grafikte hep kalın çizgi path kısımları dikkat çekmektedir. Churn için bunu kullandık mesela.
Fakat ince çizgi path’ lere bakarak olması gerekenin dışına çıkmış yani anomali içeren path bilgisine yada pattern – desene ulaşabilirsiniz.  
Örneğin sağlık sektöründe hastalara verilen ilaçları tarihlerine göre sankey diyagramında gösterdiğinizde kalın çizgiler doktorların çoğunun takip ettiği genel kabul görmüş sıra olarak niteleyebilirsiniz.
Fakat ince çizgili desene baktığımızda ise anomali ile karşılaşma olanağı daha yüksektir. Tedaviye uygun verilmemesi gereken bir ilaç desenini path analizlerinden çıkarıp fraud tespit edebilirsiniz.
Örnekler sayısız olarak çoğaltabiliriz.
Her sektörün use case’ leri birbirinden farklıdır.
Churn bilgisi bankacılık – sigorta - telco vs. için çok değerli bir bilgi olmasına karşın devlette – bakanlıklarda – resmi kurumlarda müşteri kaybetme yani churn bir anlam ifade etmeyebilir.
Sankey – path analizleri aster’ in çok başarılı olduğu ve hızlıca sonuçlarını görebileceğiniz yapıyı sizlere sunmaktadır.
Chord Grafiği:
            Ben bu grafiği market basket analysis’ e daha çok yakıştırmaktayım.
            Standart mining derslerinde de verilen bebek bezi alanlar aslında birada almaktadır vs. örneği gibi.


Örneğin telco sektöründe bu grafiği cdr – telefon arama kayıtları için kullanılabilir. Yurtdışı aramaları hangi yönden hangi yöne daha çok yapılmış görebilirsiniz.


Sigma Grafiği:
            Bu grafik ile “A to B” analizlerini yapabilirsiniz.
 Alıntıdır: http://www.theregister.co.uk/2015/04/23/art_of_analytics_teradata/


Bu grafiği yine cdr için kim kimi aramış nerede yoğunluk olmuş ya da sosyal network analizi gibi bağlantıları vs.  analiz edebilirsiniz.

Node Link - Tree Grafiği:


Aster konusunda yazılarıma devam edeceğim.


Belki sonraki aster yazılarımda path analizi örneğini baştan aşağıya yapabiliriz.




Bugünkü blog yazımız bu kadar.


Bir sonraki blog yazımda görüşmek dileğiyle.

Lütfen, yorumlarınızı bekliyorum.

mmetin