Big Data Yazılarım
Blogumda geçen resimlerin çoğu internetten alınmadır. Yani alıntıdır. Bir kısmıda tarafımca yapılmıştır.
18 Eylül 2019 Çarşamba
1 Eylül 2016 Perşembe
HADOOP - ETL İŞLEMLERİ NASIL YAPILIR? -1
Merhaba,
Bugünkü blog yazımın çok önemli
olduğunu düşünüyorum.
Başlıkta anlaşılması için etl
yazdım. Ama bugünkü blog yazımızın konusu genel anlamda hadoop sistemlerine
veri aktarımı yaklaşımları olacaktır.
Blog yazımı 2 bölüm halinde
yayınlayacağım.
İlk yazımda sorularımız ikinci blog
yazımda soruların cevapları naçizane bulunacaktır.
İlkine başlayalım.
Şirketlerinde – projelerinde hadoop
kullanmaya karar verdikten sonra kurulum işlemini bir şekilde hallediyorsunuz.
Ya free dediğimiz ürünleri kullanıyorsunuz Örneğin: apache hadoop veya cloudera
manager ile enterprise olmayan free ürünü kullanabilirsiniz. Ya da commercial ürünler
yani appliance ürünler de kullanırsanız. Bu durumda anahtar çözüm olarak size makine
+ hadoop yazılımları gelecektir.
Kurulumları yada hadoop satın
almaları yaptıktan sonra, hadoop ürünlerinizin şirketinizde teknoloji çöplüğüne
dönüşmemesi için, yani atıl durumda kalmaması için artık hadoop’ u kullanmanız gerekmektedir.
Buradaki en önemli işlerden biri de
veri aktarımlarınızın hadoop ürününe yapılmasıdır.
Yani temel sorumuz: “Hadoop’ a veri aktarımı nasıl yapılır?”
Veriyi aktaralım ki hadoop’ un
nimetlerinden faydalanalım.
Tekrar
Açısından; Nedir Bu Nimetler?
·
Verilerimiz 3 replika olarak hadoop sisteminde tutulur. Yani yedekli
bir sistemdir. Her hangi bir datanode’ taki disk bozulursa verileriniz
kaybolmaz.
·
Büyük boyutlu ve daha önce pek sorgulamadığımız-analiz-analitik
işlemler yapmadığımız structural-unstructural-semi structural vs. veriler üzerinde
sorgulama işlemleri yapabilecek duruma – imkana erişebileceksiniz.
vs.vs. diğer blog yazılarımı takip
edenler bu maddelerin daha da çok olduğunu bilmektedirler.
Asıl konumuz dışına çok çıkmadan
devam edelim.
Şirketinizde hadoop kurulumları
yapıldıktan sonra veri aktarma işlemi kısmında aşağıdaki soruları sorulmaktadır.
Hadoop’
a Veri Aktarımı İle İlgili Temel Sorular:
·
Veri aktarımını hadoop’ a nasıl yapacağım?
·
Ftp ortamında ham text dosyalarımız var. Bunları hadoop’ a nasıl
aktaracağım?
·
X makinası log dosyaları üretmektedir. Bu dosyaları hadoop
ortamına nasıl aktaracağım? (X makinası: hastane otomasyonlarında laboratuvar
makinaları, telco sektöründe cdr-görüşme loğları vs. vs.)
·
Şirket bünyesinde ODI-Informatica-Pentaho-SSIS vs.vs. gibi etl
araçları kullanıyoruz. Bu ürünleri veri aktarımlarında nasıl kullanırım? Yada tersi
durum ile bu ürünleri şirket bünyesinde kullanmıyoruz-satın almakta
istemiyoruz. Etl tool’ u kullanmadan hadoop’ a veri aktarımı mümkün değil mi? Bu
ürünler olsa da olmasa da kullanmak zorunda mıyım?
·
Şirket bünyesinde kullandığımız oracle-teradata-sql server-db2
vs.vs. gibi veri tabanlarında yer problemi yaşıyoruz. Eski tarihli verileri
hadoop ortamına atıp hem bu veritabanlarından yer kazanmak hem de verilerimizi
yedeklemek, hem de yedekli verilerimizi ihtiyaç olursa hadoop’ tan sorgulamak
istiyoruz. Oltp-dwh sistemlerinden hadoop’ a veri aktarımını nasıl yaparım?
Sorular artırılabilir tabi. Mesela stream
verisi-real time verisi vs. vs. nasıl aktarılmalı şeklinde. Bu konu ile ilgili
yazılarım olacağını önceki blog yazılarımda da belirtmiştim. Kısa bir konu
değil yani.
İkinci blog yazımızda soruların
cevaplarını, benim nasıl yaptığımı, artıları eksileri ile aklımdaki tüm metotları
yazacağım.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
24 Mayıs 2016 Salı
FLUME-3C
Merhaba,
Önceki
FLUME-1, FLUME-2 ve FLUME3A-3b blog yazımız ile flume’ a giriş yapmış, örnek
gerçekleştirmiş ve planımızı sunmuştum.
Bu blog yazımda “Flume – 3C” kısmına devam
etmek istiyorum.
Adresinden 4 adet guid numarasına benzer bilgileri almayı
görmüştük.
Bunlar: Consumer key: * Consumer secret: * Access token: * Access token secret: *
Bu adresten istediğiniz kadar
application oluşturup istediğiniz kadar token alabilirsiniz.
Şimdi
bu token’ ları kullanarak nihai amacımız olan twitter okyanusundan kendi
belirlediğimiz keyword – filter ile dinleme işine bakalım.
Yine adım adım nasıl işlemler
yaptığımızı aşağıda anlatmaya çalıştım.
Twitter
Dinlemek için Gerekli Jar Dosyası
Download Edilir:
flume-sources-1.0-SNAPSHOT.jar
jar
dosyasını internetten bulup download edilir.
Bulacağınız bu jar dosyası sorunlu
olabilir.
Bunun için aşağıdaki link bakmanızı
tavsiye ederim.
cd cdh-twitter-example
cd flume-sources
mvn package
Burada son src dosyası download
edilir ve mvn package ile tekrar deploy edilip …/cdh-twitter-example/flume-sources/target klasöründe bulunan
flume-sources-1.0-SNAPSHOT.jar
dosyası /usr/lib/flume-ng/lib klasörüne atılmalıdır.
Peki bu jar dosyası nedir?
Bu jar dosyası Twitter4j
kütüphanesini kullanan flume ile entegre edebileceğiniz bir jar dosyasıdır.
Twitter
Verilerinin Atılacağı Dizinler ve Haklar yapılır:
[cloudera@quickstart target]$ hadoop dfs -mkdir
/user/twitterdinle
[cloudera@quickstart target]$ hadoop dfs -chmod 777
/user/twitterdinle
flume.conf
Dosyası Düzenlenir:
Flume-1 ve Flume-2 yazılarımı okuyanlar
hatırlayacaklardır. Flume.conf dosyası nedir? Nasıl düzenlenir bloglarımda
bahsetmiştim.
Benim sistemde aşağıdaki klasörleri kullanmıştım.
flume.conf dosyası düzenlenir yada yeniden create
edilir.
/home/cloudera/Desktop/islemler/flume.conf
Bu dosya düzenlenir.
Twitter’
dan Dinlemek İstediğimiz Kelime Seçilir:
Ben ‘murat’ kelimesini seçtim mesela.
Bunu aşağıdaki satır ile belirtiyoruz.
TwitterAgent.sources.Twitter.keywords
= murat
Twitter sayfasından aldığınız token bilgileri ilgili
satırlara girilmelidir.
Bu token bilgilerini kimse ile paylaşmayınız.
Sonuçta sizin kullanıcınız ile alınan token ile
twitter dinleme işi yapılabilir.
TwitterAgent.sources.Twitter.consumerKey=xxxxxxxxxxxx
TwitterAgent.sources.Twitter.consumerSecret=xxxxxxxxxxxxx
TwitterAgent.sources.Twitter.accessToken=xxxxxxxxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxxxxxxxxxx
Dinlenen twitter bilgisi hdfs sisteminde nereye
yazılacak?
TwitterAgent.sinks.HDFS.hdfs.path
= hdfs://localhost:8020/user/twitterdinle
flume.conf
dosyasının tamamı aşağıdadır.
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
TwitterAgent.sources.Twitter.type =
com.cloudera.flume.source.TwitterSource
TwitterAgent.sources.Twitter.channels =
MemChannel
TwitterAgent.sources.Twitter.consumerKey=xxxxxxxxxxxx
TwitterAgent.sources.Twitter.consumerSecret=xxxxxxxxxxxxx
TwitterAgent.sources.Twitter.accessToken=xxxxxxxxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxxxxxxxxxx
TwitterAgent.sources.Twitter.keywords = murat
TwitterAgent.sinks.HDFS.channel =
MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path =
hdfs://localhost:8020/user/twitterdinle
TwitterAgent.sinks.HDFS.hdfs.fileType =
DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat
= Text
TwitterAgent.sinks.HDFS.hdfs.batchSize =
1000
TwitterAgent.sinks.HDFS.hdfs.rollSize =
0
TwitterAgent.sinks.HDFS.hdfs.rollCount =
10000
TwitterAgent.channels.MemChannel.type =
memory
TwitterAgent.channels.MemChannel.capacity
= 10000
TwitterAgent.channels.MemChannel.transactionCapacity
= 100
Tanımlamaları aslında bitirdik.
Bundan sonra flume agent’ ı
çalıştırmak işi kalıyor.
Çalıştırma işinde bir hata
almazsanız hdfs sisteminde hdfs://localhost:8020/user/twitterdinle
klasörüne
bakarak twitlerin akmaya başladığını görmelisiniz.
Flume
Agent Çalıştırılması ve Artık Twitter Dinlemeye Başlıyoruz:
Aşağıdaki satırı aynen terminal üzerinden
çalıştırınız.
Burada TwitterAgent ifadesini flume.conf dosyasından geldiğini
tekrar hatırlatırım. Bir alias gibidir. İsmini istediğiniz gibi verebilirsiniz.
[cloudera@quickstart islemler]$ flume-ng agent
--conf-file /home/cloudera/Desktop/islemler/flume.conf
Dflume.root.logger=DEBUG,console -n TwitterAgent
Eğer bir sorun olmazsa aşağıdaki
ekran görüntüsünü almanız gerekiyor.
Yani “Establishing connection" ifadesini
görmemiz lazım.
Twitter account’nuz ile twit
girebilirsiniz ve hdfs sistemine bu twitlerin hatta sadece sizin değil tüm
twitter okyanusunda yer alan içinde “murat” geçen tüm twittleri toplamaya
başladınız.
Hue filebrowser dan baktığınızda twitler düşmeye
başladı mı?
Dosya tıklanarak json datası ve içinde
"murat" geçen twitleri görebilirsiniz.
Twitter bilgisini nasıl kullanmak
istediğinize göre değişerek: Bundan sonrası bu json formatındaki dosyadan
sorgulamalar vs. yapabilirsiniz.
Bir web uygulaması yaparak hdfs
sistemine düşen ve dinlediğiniz twitleri gösterir bir uygulama yazabilirsiniz.
Gelen twittleri kategorize ederek
acil eylem yapmanız gereken twittleri belirleyebilirsiniz. Hatta buradan near
real time bir uygulama yada cep – complex event processing vs. kullanarak güzel
uygulamalar gerçekleştirebilirsiniz.
Hive ile twitter json datası
üzerinde sorgu çekebilirsiniz.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
2 Mayıs 2016 Pazartesi
FLUME – 3B
Merhaba,
Önceki
FLUME-1, FLUME-2 ve FLUME3A blog yazımız ile flume’ a giriş yapmış, örnek
gerçekleştirmiş ve planımızı sunmuştum.
Blog’ a ulaşmak için: http://bigdatayazilari.blogspot.com.tr/2016/04/flume-3a.html
Bu blog yazımda “Flume – 3B” kısmına
devam etmek istiyorum.
Twitter verilerini belirlediğiniz
filter-keyword’ lere göre dinlemek için: twitter’ ın aşağıdaki sitesinden kendi
twitter account’ ile access token tanımlamaları almanız gerekir.
Bu “access token” bilgilerini bir
sonraki FLUME-3C blog yazısında flume içinde kullanıp istediğiniz
filter-keyword’ leri twitter sisteminden alıp kendi hdfs sistemine yazmayı
paylaşacağım.
Adım adım ekran görüntüleri ile
devam edelim.
Kullanıcı adı ve şifre ile girdikten sonra Create a new application butonuna
basılır.
Aşağıda kırmızı ile işaretli
kısımlar doldurulur.
Bir sonraki ekranda yer alan
Consumer Key ve Consumer Secret değerlerinin yani kırmızı ile işaretli
kısımlarda guid numarasına benzer bilgi olmalıdır. Bu bilgileri not ediniz.
Aslında ihtiyacımız olan 4 bilgiyi
twitter’ dan almış olduk.
Bunlar:
Consumer
key: *
Consumer secret: *
Access token: *
Access token secret: *
Bu 4 bilgiyi flume içinde kullanıp,
belirleyeceğiniz filter-keywordleri twitterdan dinleme işini FLUME-3C blog
yazısında paylaşacağım.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
17 Nisan 2016 Pazar
FLUME – 3A
Merhaba,
Önceki
FLUME-1 ve FLUME-2 blog yazımız ile flume’ a giriş yapmış, örnek
gerçekleştirmiş ve planımızı sunmuştum.
Yazıya ulaşmak için : http://bigdatayazilari.blogspot.com.tr/2016/04/flume-2.html
Planım Aşağıdadır:
Flume – 3 Blog Yazımda:
·
Twitter dinleme kapsamlı
şekilde anlatılıp yapılacaktır.
Flume – 4 Blog Yazımda:
·
Flume ve kafka
entegrasyonu
Bu blog yazımda “Flume – 3A” kısmına
devam etmek istiyorum.
Ancak twitter
işlemleri anlatımı uzun olacağından flume-3 kısmını A, B ve C olmak üzere üç
ayrı blog yazısı ile tamamlayacağım.
Twitter
dinleme ve bunları hadoop ortamına atma, buradan da işlemler yapma ile ilgili
internette örnekler bulabilirsiniz.
Ben de bu
örnekler üzerinden gideceğim.
Piyasada
hadoop – big data sunumları ve anlatımları istendiğinde ülkemizde bu işi yapan
firmaların ilk verdikleri örnek “twitter verilerini dinleyelim ve hadoop
ortamlarınıza aktaralım” şeklindedir.
Ülkemizde
sosyal medya, sosyal medya programı vs. adı altında oldukça fazla uygulama
sunan firmalar bulunmaktadır.
Bu firmalardan da profesyonel bir
sosyal medya uygulamaları vs. satın alabilirsiniz.
Twitter
Verilerini Dinlemek Nedir?
Konuyla ilgili sunum ve
anlatım yaptığımda aşağıdaki benzetmeyi çok kullanıyorum.
Twitter verileri bir okyanus
gibi.
İçinde her türlü konunun –
konuşmanın – bilginin – vs. olduğu bir
okyanus gibidir.
Sizler de kendi firmanız hakkında,
rakip firma hakkında ya da istediğiniz bir konu hakkında vs. bilgileri almak
için twitter okyanusuna bir ağ atıyorsunuz ve ihtiyacınız olan kısmı
alıyorsunuz.
İşte bu ağ nasıl atılır ve veriler
nasıl çekilir bu blog yazı dizisiyle anlatılacaktır.
Gelelim blog yazımıza: Twitter
verileri nasıl dinlenir? Twittler hadoop ortamına nasıl aktarılır vs. ile
ilgili etrafımdan da çok soru gelmektedir.
Aslında bunlar teknik olarak zor
olmayan, internetten bulunacak birkaç örnek ile çok rahat kodlama
yapabileceğiniz ortamlar bulunmaktadır.
Bence asıl soru şunlar olmalıdır?
Twitter verisi ne işimi yarayacak? Twitter verisi ile neler yapabilirim? Ne tür
analizler gerçekleştirebilirim?
Bu sorularımızı kategorize ederek çok
detaya girmeden(sosyal medya nedir? Ne işe yarar? vs.vs. kısımlarına çok
girmeden) aşağıda cevaplarını bulmaya çalışalım.
Teknik
Arkadaşlarımızın Soruları:
·
Twitter verileri nasıl dinlenir?
·
Twitter verileri hadoop ortamına ya da kendi veritabanlarımıza
nasıl aktarılır?
·
Twitter verilerini real time ya da near real time nasıl dinlenir
ve aksiyon alınır?
Cevaplar:
Twitter
verilerini dinlemenin benim bildiğim 2 temel yolu vardır.
Birinci
Yöntem:
Twitter firması ile anlaşmalı ve
direkt olarak twitterdan geçmişe yönelik de veri çekebilen firmalar vardır.
Ben iki tanesini biliyorum. İnternetten
search ederseniz bir çok firma bulabilirsiniz.
Bu firmalar sizin uygulama vs.
yazmadan istediğiniz keywordlere göre yapacağınız anlaşma gereği twitter başına
para alarak bu verileri sunmaktadır.
Ayrıca artı bir özelliği olarak
geçmişe yönelik verilerede erişim sağlanmaktadır. Yani bir yıl öncesinden
firmam ile ilgili çıkmış reklam ile ilgili twitleride istiyorum diyebilirsiniz.
Yani bu firmalar ile sözleşme imzalarsınız
ve twitter verilerine erişirsiniz.
İkinci
Yöntem:
Kendiniz bir uygulama yazarak, free
şekilde twitter verilerine erişebilirsiniz.
Bunun için twitter firması
tarafından sağlanan Twitter4J api
kütüphanesini kullanırsınız.
Bu api free’ dir.
Peki paralı yöntem olan birinci
yöntem ile farkları nedir?
Twitter4j ile geçmişe yönelik bir
sorgulama yapamazsınız.
Ayrıca twitter dinleme sonucu gelen
kayıt sayısı belirli bir süre için sınırlıdır.
Fakat bu sınırı geçmek güçtür.
Hatırladığım kadarıyla 15 dk. 18 bin
twit için twitter4j kullanılabiliyor.
Bu rakam belki değişmiş olabilir.
Fakat 15 dk. 18 bin twit gerçekten
ciddi bir rakamdır.
Firmanızı ve hatta rakip firmaları,
kampanyaları vs. dinlemeye başladığınızda belki günlük 2-3 bin twiti bile aşamayacaksınız.
İkinci yöntemde flume ile twitter4j
api entegre ederek çalıştırabileceğiniz bir yapı da bulunmaktadır.
Biz örneğimizi basit anlamda bir
flume ile dinleyerek yapacağız.
İş
Birimlerin - Analizcilerin – Müdürlerimizin – Karar Alıcıların vs. Soruları:
Twitter
verisi ne işime yarayacak?
Twitter
verisi ile neler yapabilirim?
Twitter
verisi ile ne tür analizler yapabilirim?
Cevaplar:
Twitter verileri ile ya da sosyal
medya verileri ile piyasada sizin firma hakkında neler düşünülüyor –
tartışılıyor – konuşuluyor öğrenebilirsiniz.
Firmanızın imajı – kampanayalar – çıkan
reklamların piyasadaki etkisini – beğenilmiş mi? öğrenebilirsiniz.
Rakip firmaları da dinleyerek
firmanız ile çoğu konuyu mukayese edebilirsiniz.
Türkçe’ mizin zorluğundan da
kaynaklansa sentiment analizlerini twitter verileri üzerinde yapabilirsiniz.
Gelen twitlerin duygusu pozitif mi? negatif mi? ölçebilirsiniz.
(ayrı bir parantez açarak yüzde yüz,
yüzde 90’ ın üzerinde sentiment analizlerini doğru yapıyorum diyenlere kuşku
ile yaklaşınız.
Bir örnek verelim. Sizce aşağıdaki
twit sizin adınıza pozitif mi negatif mi?
“”ABCD firması manyak bir ürün
çıkarmış! Peh!”
Burada sona konulan peh kelimesi ayrıca iki
tane ünlemin olması ve “manyak” kelimesi olumlu mu? Olumsuz mu? İğneleme mi? Alay
etme mi? kinaye mi? vs.vs. şeklinde tartışsak çok sonuç çıkacaktır. )
Twitter
Verilerinin Big Data ile Ne İlgisi Var?
Bigdata’
yı anlatırken 3V + 1V ’ den bahsetmiştik.
Twitter
bu 3V+1V ‘ ye uygun mu bakalım?
Volume
– Hacim , Velocity – Hız , Variety - Çeşitlilik :
Twitter verilerin hacmi oldukça fazladır.
Konuyla
ilgili internette pek çok istatistik bulabilirsiniz.
Ülkemizde benim bildiğim kabaca: 12
milyonun üzerinde twitter kullanıcısı, 6 milyonu aktif şekilde kullanıyor,
günlük 14 milyon twit gönderiliyor.
Günlük sadece ülkemizde akan twit
sayısı bile çok fazla. Yani hız bakımından da bigdata’ ya uygun bir konu.
Ayrıca twit verileri json data
şeklinde tutmaktadır.
Alışık olduğumuz tablo yapısı
şeklinde değildir.
Son V-Value –Değer kısmını ise “Twitter
Verileri Ne İşimize Yarayacak?” sorularında cevap aramıştık.
Bir
sonraki FLUME-3B yazısında twitter verilerini dinlemek için https://dev.twitter.com/apps/ adresinden twitter access token
almayı ekran görüntüleri ile göstereceğim.
Flume
– 3C yazısında bu access token’ ları flume ile kullanarak istediğiniz
keywordleri hadoop hdfs ortamına aktaracağız.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
6 Nisan 2016 Çarşamba
Teradata Aster Discovery Platform -2
Merhaba,
Bundan
önceki ASTER blog yazımda aşağıdaki
sorulara cevap aramıştık.
·
Aster Nedir?
·
Aster’ de Storage Olmasının Anlamı Nedir?
·
Kendi Diski - Storage Olmasının Avantajı Nedir?
·
Aster Virtual Machine
·
Aster’ de ”Kabul Etmemiz Gereken Bazı Ön Bilgiler“
·
Discovery – Döngüsel Yapı Nedir?
·
Neden Ticari Bir Ürün Kullanayım?
·
Aster’ de Kullanabileceğim Fonksiyonlar Nelerdir?
Önceki blog yazıma ulaşmak için:
Bu blog
yazımda aster’ de kullanılan temel 4 grafikten- diyagramdan bahsetmek istiyorum.
Elbette aster’
de sadece 4 grafik yok. Bundan daha fazlası var. Fakat bu bloğumda en çok
kullanacağız 4 tanesinden bahsedeceğim.
Yine ilk
blog yazımda discovery – döngüsel yapıyı anlatırken “Çıktısını İncele…”
şeklinde son maddeyi yazmıştım.
Bu adım
aslında yapmış olduğunuz veri keşfi sırasında elde edeceğiniz çıktı – ürün –
nihai sonuç – proje sonu çıktısı – veri keşfi pattern’ i, modeli’ dir.
Aster’ de
yapmış olduğunuz çalışmanın sonucunu, iş birimlerine ve ya müdürlerinize sunağınız
kısımdır.
Peki Aster’
de verebileceğiniz bu çıktılar nelerdir?
Yukarıda yazdığım
gibi bu blog yazıma özel 4 tanesinden bahsedeceğim.
Önemli bir bilgi :
Grafikler etkileşimli,
dril down, zoom in out şeklinde çalışmaktadır.
Sankey Grafiği - Diyagramı:
Aster için
bir demo – tutorial – PoC istediğinizde ilk olarak sunulan çalışmalardan
biridir sankey diyagramı.
Path
analizleri için birebirdir ve oldukça başarılıdır.
Aster’ ın
başarılı olduğu path analizlerin çıktısını sankey diyagramları ile
oluşturabilirsiniz.
Örnekler vererek
grafiğin nasıl okunduğunu anlatmaya çalışalım.
·
Churn eden müşteri topluluğun, churn etmeden önceki N hareketi
nedir ve nasıl bir dağılım göstermiş sorularına cevap bulursunuz.
Müşteriniz churn etmeden önceki
izlemiş olduğu yolları – path’ leri görebilirsiniz. Böylece buradan bir pattern
– desen elde edersiniz.
Yani müşteriler şu şu hareketleri ve
ya izleri bıraktıktan sonra yüzde 80’ i churn etmektedir sonucunu iş
birimlerine – müdürlerinizle paylaşırsınız.
·
Fraud analizleri için kullanılabilecek bir diyagram türüdür
sankey yada path analizi.
Bu grafikte hep kalın çizgi path
kısımları dikkat çekmektedir. Churn için bunu kullandık mesela.
Fakat ince çizgi path’ lere bakarak
olması gerekenin dışına çıkmış yani anomali içeren path bilgisine yada
pattern – desene ulaşabilirsiniz.
Örneğin sağlık sektöründe hastalara
verilen ilaçları tarihlerine göre sankey diyagramında gösterdiğinizde kalın
çizgiler doktorların çoğunun takip ettiği genel kabul görmüş sıra olarak
niteleyebilirsiniz.
Fakat ince çizgili desene
baktığımızda ise anomali ile karşılaşma olanağı daha yüksektir. Tedaviye uygun verilmemesi
gereken bir ilaç desenini path analizlerinden çıkarıp fraud tespit
edebilirsiniz.
Örnekler sayısız olarak
çoğaltabiliriz.
Her sektörün use case’ leri
birbirinden farklıdır.
Churn bilgisi bankacılık – sigorta - telco vs.
için çok değerli bir bilgi olmasına karşın devlette – bakanlıklarda – resmi kurumlarda
müşteri kaybetme yani churn bir anlam ifade etmeyebilir.
Sankey – path analizleri aster’ in
çok başarılı olduğu ve hızlıca sonuçlarını görebileceğiniz yapıyı sizlere
sunmaktadır.
Chord Grafiği:
Ben bu grafiği market basket analysis’
e daha çok yakıştırmaktayım.
Standart mining derslerinde de
verilen bebek bezi alanlar aslında birada almaktadır vs. örneği gibi.
Örneğin telco
sektöründe bu grafiği cdr – telefon arama kayıtları için kullanılabilir. Yurtdışı
aramaları hangi yönden hangi yöne daha çok yapılmış görebilirsiniz.
Sigma Grafiği:
Bu grafik ile “A to B” analizlerini
yapabilirsiniz.
Alıntıdır:
http://www.theregister.co.uk/2015/04/23/art_of_analytics_teradata/
Bu grafiği
yine cdr için kim kimi aramış nerede yoğunluk olmuş ya da sosyal network
analizi gibi bağlantıları vs. analiz
edebilirsiniz.
Node Link - Tree Grafiği:
Aster konusunda yazılarıma devam edeceğim.
Belki sonraki aster yazılarımda path analizi örneğini baştan aşağıya
yapabiliriz.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
Kaydol:
Yorumlar (Atom)











