17 Nisan 2016 Pazar

FLUME – 3A


Merhaba,
Önceki FLUME-1 ve FLUME-2 blog yazımız ile flume’ a giriş yapmış, örnek gerçekleştirmiş ve planımızı sunmuştum.


Yazıya ulaşmak için : http://bigdatayazilari.blogspot.com.tr/2016/04/flume-2.html

Planım Aşağıdadır:

Flume – 1 Blog Yazımda :
·                Flume nedir?
·                Ne amaçla kullanılır?
·                Nasıl Kurulur?
·                Konfigürasyon – Yapılandırma işlemleri nasıl yapılır?

Flume – 2 Blog Yazımda:
·                  Birkaç örnek yapılacaktır.  (“vmstat -1” , “tail –f file” )

Flume – 3 Blog Yazımda:
·                Twitter dinleme kapsamlı şekilde anlatılıp yapılacaktır.

Flume – 4 Blog Yazımda:
·                Flume ve kafka entegrasyonu


Bu blog yazımda “Flume – 3A” kısmına devam etmek istiyorum.  
Ancak twitter işlemleri anlatımı uzun olacağından flume-3 kısmını A, B ve C olmak üzere üç ayrı blog yazısı ile tamamlayacağım.

Twitter dinleme ve bunları hadoop ortamına atma, buradan da işlemler yapma ile ilgili internette örnekler bulabilirsiniz.
Ben de bu örnekler üzerinden gideceğim.
Piyasada hadoop – big data sunumları ve anlatımları istendiğinde ülkemizde bu işi yapan firmaların ilk verdikleri örnek “twitter verilerini dinleyelim ve hadoop ortamlarınıza aktaralım” şeklindedir.
Ülkemizde sosyal medya, sosyal medya programı vs. adı altında oldukça fazla uygulama sunan firmalar bulunmaktadır.
Bu firmalardan da profesyonel bir sosyal medya uygulamaları vs. satın alabilirsiniz.

Twitter Verilerini Dinlemek Nedir?
Konuyla ilgili sunum ve anlatım yaptığımda aşağıdaki benzetmeyi çok kullanıyorum.
Twitter verileri bir okyanus gibi.
İçinde her türlü konunun – konuşmanın – bilginin – vs.  olduğu bir okyanus gibidir.
Sizler de kendi firmanız hakkında, rakip firma hakkında ya da istediğiniz bir konu hakkında vs. bilgileri almak için twitter okyanusuna bir ağ atıyorsunuz ve ihtiyacınız olan kısmı alıyorsunuz.
İşte bu ağ nasıl atılır ve veriler nasıl çekilir bu blog yazı dizisiyle anlatılacaktır.
Gelelim blog yazımıza: Twitter verileri nasıl dinlenir? Twittler hadoop ortamına nasıl aktarılır vs. ile ilgili etrafımdan da çok soru gelmektedir.
Aslında bunlar teknik olarak zor olmayan, internetten bulunacak birkaç örnek ile çok rahat kodlama yapabileceğiniz ortamlar bulunmaktadır.
Bence asıl soru şunlar olmalıdır? Twitter verisi ne işimi yarayacak? Twitter verisi ile neler yapabilirim? Ne tür analizler gerçekleştirebilirim?
Bu sorularımızı kategorize ederek çok detaya girmeden(sosyal medya nedir? Ne işe yarar? vs.vs. kısımlarına çok girmeden) aşağıda cevaplarını bulmaya çalışalım.
Teknik Arkadaşlarımızın Soruları:
·        Twitter verileri nasıl dinlenir?
·        Twitter verileri hadoop ortamına ya da kendi veritabanlarımıza nasıl aktarılır?
·        Twitter verilerini real time ya da near real time nasıl dinlenir ve aksiyon alınır?
Cevaplar:
      Twitter verilerini dinlemenin benim bildiğim 2 temel yolu vardır.
Birinci Yöntem:
Twitter firması ile anlaşmalı ve direkt olarak twitterdan geçmişe yönelik de veri çekebilen firmalar vardır.
Ben iki tanesini biliyorum. İnternetten search ederseniz bir çok firma bulabilirsiniz.
Bu firmalar sizin uygulama vs. yazmadan istediğiniz keywordlere göre yapacağınız anlaşma gereği twitter başına para alarak bu verileri sunmaktadır.
Ayrıca artı bir özelliği olarak geçmişe yönelik verilerede erişim sağlanmaktadır. Yani bir yıl öncesinden firmam ile ilgili çıkmış reklam ile ilgili twitleride istiyorum diyebilirsiniz.
Yani bu firmalar ile sözleşme imzalarsınız ve twitter verilerine erişirsiniz.
İkinci Yöntem:
Kendiniz bir uygulama yazarak, free şekilde twitter verilerine erişebilirsiniz.
Bunun için twitter firması tarafından sağlanan Twitter4J api kütüphanesini kullanırsınız.
Bu api free’ dir.
Peki paralı yöntem olan birinci yöntem ile farkları nedir?
Twitter4j ile geçmişe yönelik bir sorgulama yapamazsınız.
Ayrıca twitter dinleme sonucu gelen kayıt sayısı belirli bir süre için sınırlıdır.
Fakat bu sınırı geçmek güçtür.  
Hatırladığım kadarıyla 15 dk. 18 bin twit için twitter4j kullanılabiliyor.
Bu rakam belki değişmiş olabilir.
Fakat 15 dk. 18 bin twit gerçekten ciddi bir rakamdır.
Firmanızı ve hatta rakip firmaları, kampanyaları vs. dinlemeye başladığınızda belki günlük 2-3 bin twiti bile aşamayacaksınız.
İkinci yöntemde flume ile twitter4j api entegre ederek çalıştırabileceğiniz bir yapı da bulunmaktadır.
Biz örneğimizi basit anlamda bir flume ile dinleyerek yapacağız.
     
İş Birimlerin - Analizcilerin – Müdürlerimizin – Karar Alıcıların vs. Soruları:
            Twitter verisi ne işime yarayacak?
            Twitter verisi ile neler yapabilirim?
            Twitter verisi ile ne tür analizler yapabilirim?
Cevaplar:
Twitter verileri ile ya da sosyal medya verileri ile piyasada sizin firma hakkında neler düşünülüyor – tartışılıyor – konuşuluyor öğrenebilirsiniz.
Firmanızın imajı – kampanayalar – çıkan reklamların piyasadaki etkisini – beğenilmiş mi? öğrenebilirsiniz.
Rakip firmaları da dinleyerek firmanız ile çoğu konuyu mukayese edebilirsiniz.
Türkçe’ mizin zorluğundan da kaynaklansa sentiment analizlerini twitter verileri üzerinde yapabilirsiniz. Gelen twitlerin duygusu pozitif mi? negatif mi? ölçebilirsiniz.
(ayrı bir parantez açarak yüzde yüz, yüzde 90’ ın üzerinde sentiment analizlerini doğru yapıyorum diyenlere kuşku ile yaklaşınız.
Bir örnek verelim. Sizce aşağıdaki twit sizin adınıza pozitif mi negatif mi?
“”ABCD firması manyak bir ürün çıkarmış! Peh!”
 Burada sona konulan peh kelimesi ayrıca iki tane ünlemin olması ve “manyak” kelimesi olumlu mu? Olumsuz mu? İğneleme mi? Alay etme mi? kinaye mi? vs.vs. şeklinde tartışsak çok sonuç çıkacaktır. )

Twitter Verilerinin Big Data ile Ne İlgisi Var?
            Bigdata’ yı anlatırken 3V + 1V ’ den bahsetmiştik.
            Twitter bu 3V+1V ‘ ye uygun mu bakalım?
Volume – Hacim , Velocity – Hız , Variety - Çeşitlilik :
Twitter verilerin hacmi oldukça fazladır.
            Konuyla ilgili internette pek çok istatistik bulabilirsiniz.
Ülkemizde benim bildiğim kabaca: 12 milyonun üzerinde twitter kullanıcısı, 6 milyonu aktif şekilde kullanıyor, günlük 14 milyon twit gönderiliyor.  
Günlük sadece ülkemizde akan twit sayısı bile çok fazla. Yani hız bakımından da bigdata’ ya uygun bir konu.
Ayrıca twit verileri json data şeklinde tutmaktadır.
Alışık olduğumuz tablo yapısı şeklinde değildir.
Son V-Value –Değer kısmını ise “Twitter Verileri Ne İşimize Yarayacak?” sorularında cevap aramıştık.

Bir sonraki FLUME-3B yazısında twitter verilerini dinlemek için https://dev.twitter.com/apps/  adresinden twitter access token almayı ekran görüntüleri ile göstereceğim.
Flume – 3C yazısında bu access token’ ları flume ile kullanarak istediğiniz keywordleri hadoop hdfs ortamına aktaracağız.
  
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin


Hiç yorum yok:

Yorum Gönder