Merhaba,
Önceki
FLUME-1 ve FLUME-2 blog yazımız ile flume’ a giriş yapmış, örnek
gerçekleştirmiş ve planımızı sunmuştum.
Yazıya ulaşmak için : http://bigdatayazilari.blogspot.com.tr/2016/04/flume-2.html
Planım Aşağıdadır:
Flume – 3 Blog Yazımda:
·
Twitter dinleme kapsamlı
şekilde anlatılıp yapılacaktır.
Flume – 4 Blog Yazımda:
·
Flume ve kafka
entegrasyonu
Bu blog yazımda “Flume – 3A” kısmına
devam etmek istiyorum.
Ancak twitter
işlemleri anlatımı uzun olacağından flume-3 kısmını A, B ve C olmak üzere üç
ayrı blog yazısı ile tamamlayacağım.
Twitter
dinleme ve bunları hadoop ortamına atma, buradan da işlemler yapma ile ilgili
internette örnekler bulabilirsiniz.
Ben de bu
örnekler üzerinden gideceğim.
Piyasada
hadoop – big data sunumları ve anlatımları istendiğinde ülkemizde bu işi yapan
firmaların ilk verdikleri örnek “twitter verilerini dinleyelim ve hadoop
ortamlarınıza aktaralım” şeklindedir.
Ülkemizde
sosyal medya, sosyal medya programı vs. adı altında oldukça fazla uygulama
sunan firmalar bulunmaktadır.
Bu firmalardan da profesyonel bir
sosyal medya uygulamaları vs. satın alabilirsiniz.
Twitter
Verilerini Dinlemek Nedir?
Konuyla ilgili sunum ve
anlatım yaptığımda aşağıdaki benzetmeyi çok kullanıyorum.
Twitter verileri bir okyanus
gibi.
İçinde her türlü konunun –
konuşmanın – bilginin – vs. olduğu bir
okyanus gibidir.
Sizler de kendi firmanız hakkında,
rakip firma hakkında ya da istediğiniz bir konu hakkında vs. bilgileri almak
için twitter okyanusuna bir ağ atıyorsunuz ve ihtiyacınız olan kısmı
alıyorsunuz.
İşte bu ağ nasıl atılır ve veriler
nasıl çekilir bu blog yazı dizisiyle anlatılacaktır.
Gelelim blog yazımıza: Twitter
verileri nasıl dinlenir? Twittler hadoop ortamına nasıl aktarılır vs. ile
ilgili etrafımdan da çok soru gelmektedir.
Aslında bunlar teknik olarak zor
olmayan, internetten bulunacak birkaç örnek ile çok rahat kodlama
yapabileceğiniz ortamlar bulunmaktadır.
Bence asıl soru şunlar olmalıdır?
Twitter verisi ne işimi yarayacak? Twitter verisi ile neler yapabilirim? Ne tür
analizler gerçekleştirebilirim?
Bu sorularımızı kategorize ederek çok
detaya girmeden(sosyal medya nedir? Ne işe yarar? vs.vs. kısımlarına çok
girmeden) aşağıda cevaplarını bulmaya çalışalım.
Teknik
Arkadaşlarımızın Soruları:
·
Twitter verileri nasıl dinlenir?
·
Twitter verileri hadoop ortamına ya da kendi veritabanlarımıza
nasıl aktarılır?
·
Twitter verilerini real time ya da near real time nasıl dinlenir
ve aksiyon alınır?
Cevaplar:
Twitter
verilerini dinlemenin benim bildiğim 2 temel yolu vardır.
Birinci
Yöntem:
Twitter firması ile anlaşmalı ve
direkt olarak twitterdan geçmişe yönelik de veri çekebilen firmalar vardır.
Ben iki tanesini biliyorum. İnternetten
search ederseniz bir çok firma bulabilirsiniz.
Bu firmalar sizin uygulama vs.
yazmadan istediğiniz keywordlere göre yapacağınız anlaşma gereği twitter başına
para alarak bu verileri sunmaktadır.
Ayrıca artı bir özelliği olarak
geçmişe yönelik verilerede erişim sağlanmaktadır. Yani bir yıl öncesinden
firmam ile ilgili çıkmış reklam ile ilgili twitleride istiyorum diyebilirsiniz.
Yani bu firmalar ile sözleşme imzalarsınız
ve twitter verilerine erişirsiniz.
İkinci
Yöntem:
Kendiniz bir uygulama yazarak, free
şekilde twitter verilerine erişebilirsiniz.
Bunun için twitter firması
tarafından sağlanan Twitter4J api
kütüphanesini kullanırsınız.
Bu api free’ dir.
Peki paralı yöntem olan birinci
yöntem ile farkları nedir?
Twitter4j ile geçmişe yönelik bir
sorgulama yapamazsınız.
Ayrıca twitter dinleme sonucu gelen
kayıt sayısı belirli bir süre için sınırlıdır.
Fakat bu sınırı geçmek güçtür.
Hatırladığım kadarıyla 15 dk. 18 bin
twit için twitter4j kullanılabiliyor.
Bu rakam belki değişmiş olabilir.
Fakat 15 dk. 18 bin twit gerçekten
ciddi bir rakamdır.
Firmanızı ve hatta rakip firmaları,
kampanyaları vs. dinlemeye başladığınızda belki günlük 2-3 bin twiti bile aşamayacaksınız.
İkinci yöntemde flume ile twitter4j
api entegre ederek çalıştırabileceğiniz bir yapı da bulunmaktadır.
Biz örneğimizi basit anlamda bir
flume ile dinleyerek yapacağız.
İş
Birimlerin - Analizcilerin – Müdürlerimizin – Karar Alıcıların vs. Soruları:
Twitter
verisi ne işime yarayacak?
Twitter
verisi ile neler yapabilirim?
Twitter
verisi ile ne tür analizler yapabilirim?
Cevaplar:
Twitter verileri ile ya da sosyal
medya verileri ile piyasada sizin firma hakkında neler düşünülüyor –
tartışılıyor – konuşuluyor öğrenebilirsiniz.
Firmanızın imajı – kampanayalar – çıkan
reklamların piyasadaki etkisini – beğenilmiş mi? öğrenebilirsiniz.
Rakip firmaları da dinleyerek
firmanız ile çoğu konuyu mukayese edebilirsiniz.
Türkçe’ mizin zorluğundan da
kaynaklansa sentiment analizlerini twitter verileri üzerinde yapabilirsiniz.
Gelen twitlerin duygusu pozitif mi? negatif mi? ölçebilirsiniz.
(ayrı bir parantez açarak yüzde yüz,
yüzde 90’ ın üzerinde sentiment analizlerini doğru yapıyorum diyenlere kuşku
ile yaklaşınız.
Bir örnek verelim. Sizce aşağıdaki
twit sizin adınıza pozitif mi negatif mi?
“”ABCD firması manyak bir ürün
çıkarmış! Peh!”
Burada sona konulan peh kelimesi ayrıca iki
tane ünlemin olması ve “manyak” kelimesi olumlu mu? Olumsuz mu? İğneleme mi? Alay
etme mi? kinaye mi? vs.vs. şeklinde tartışsak çok sonuç çıkacaktır. )
Twitter
Verilerinin Big Data ile Ne İlgisi Var?
Bigdata’
yı anlatırken 3V + 1V ’ den bahsetmiştik.
Twitter
bu 3V+1V ‘ ye uygun mu bakalım?
Volume
– Hacim , Velocity – Hız , Variety - Çeşitlilik :
Twitter verilerin hacmi oldukça fazladır.
Konuyla
ilgili internette pek çok istatistik bulabilirsiniz.
Ülkemizde benim bildiğim kabaca: 12
milyonun üzerinde twitter kullanıcısı, 6 milyonu aktif şekilde kullanıyor,
günlük 14 milyon twit gönderiliyor.
Günlük sadece ülkemizde akan twit
sayısı bile çok fazla. Yani hız bakımından da bigdata’ ya uygun bir konu.
Ayrıca twit verileri json data
şeklinde tutmaktadır.
Alışık olduğumuz tablo yapısı
şeklinde değildir.
Son V-Value –Değer kısmını ise “Twitter
Verileri Ne İşimize Yarayacak?” sorularında cevap aramıştık.
Bir
sonraki FLUME-3B yazısında twitter verilerini dinlemek için https://dev.twitter.com/apps/ adresinden twitter access token
almayı ekran görüntüleri ile göstereceğim.
Flume
– 3C yazısında bu access token’ ları flume ile kullanarak istediğiniz
keywordleri hadoop hdfs ortamına aktaracağız.
Bugünkü blog yazımız bu kadar.
Bir sonraki blog yazımda görüşmek
dileğiyle.
Lütfen, yorumlarınızı bekliyorum.
mmetin
Hiç yorum yok:
Yorum Gönder