Veri Görselleştirmesi ve Bilgi Görselleştirmesi – Verilerin Görsel Analizi

İstanbul Sanayi Odası'nın Gıda Firmaları Sıralaması

Veri görselleştirmesi (data visualization) ve bilgi görselleştirmesi (information visualization). Bazen bu terimler yerine veri gösterimi ya da bilgi gösterimi terimlerine de rastlayabilirsiniz. Bu iki terim ile ilgili akla ilk gelen kritik sorular şunlar olabilir:

  1. Veri görselleştirmesi ve bilgi görselleştirmesi nedir?
  2. Bu ikisi arasındaki farklar nelerdir?

Bu yazımızda ilk sorunun yanıtını vereceğiz. Çok basit bir örnekle veri görselleştirmesinin ne olduğunu anlatacağız.

Aslında bu iki kavramın özü aynı: Elimizdeki veri ya da bilgileri görsel araçlarla gösterip, buradan çıkarımlar yapabilmek, kavrayışlara (insights) erişebilmek, ve bize faydalı olabilecek hareket tarzların (policy) ve stratejilere (strategy) ulaşabilmek.

Gelin, bunu çok basit bir örnekle açıklayalım. Yukarıda bir görselleştirme görüyorsunuz.

Bu grafik görselleştirme, İstanbul Sanayi Odası (İSO) tarafından her yıl yayınlanan Türkiye’nin 500 Büyük Sanayi Kuruluşu verisinden oluşturulmuştur.Grafikte x ekseni firmanın 2009 yılındaki sıralamasını, y ekseni ise 2010 yılındaki sıralamasını göstermektedir. Renkler ise firmaların verimliliğini göstermektedir.

Sağda 7 firmanın bir hizada dizilmiş olduğunu görmektesiniz. Bunlar, 2009 yılında ilk 500 sıralamasında yer almadığı halde 2010 yılında sıralamada yer alan firmalar. Bunların arasında Besler’in ve Namet’in en altta yer aldıklarını görüyoruz. Bu iki firma, bir yıl içinde birdenbire ilk 500 sıralamasına girmekle kalmamış, aynı zamanda ilk 150 firma arasında girmişlerdir (y değerleri 150’den küçüktür, sıralamada ilk 150’dedirler).

Bu grafikten daha birçok bilgiyi okuyabiliriz, ancak sadece bir örnek daha verelim: Acaba 2009’da listede olmadığı halde 2010’da listeye giren firmalardan operasyonel verimliliği en iyi olan hangisidir?

Bu sorunun yanıtı da çok basit. Grafiğin sağında hizalanmış gördüğümüz firmalardan en açık renkli olanları bulmaya çalışacağız, çünkü sağ üst köşedeki baremden görüleceği üzere beyaz renk en yüksek operasyonel verimliliğe işaret etmektedir.

Eğer Kerevitaş dediyseniz sorunun cevabını bildiniz, çünkü en açık renkli olan nokta Kerevitaş’a ait.

Bu grafiğe bakarak aşağıdaki soruların yanıtlarını verebilir misiniz?

  • 2009’a kıyasla 2010’da sıralaması düşen firmalar hangileri?
  • 2009’da kıyasla 2010’da sıralaması yükselen firmalar hangileri?
  • Sıralaması değişmeyen firmalar hangileri?

Bu grafiğin yer aldığı makaleyi (İngilizce) okuyabilirsiniz:

Ertek G., Sevinç, M., Ulus, F., Köse, Ö., Şahin, G. (2014) “Industrial Benchmarking through Information Visualization and Data Envelopment Analysis: A New Framework”, in I. Osman, A.L. Anouze and A. Emrouznejad (eds.) Strategic Performance Management and Measurement Using Data Envelopment Analysis, DOI: 10.4018/978-1-4666-4474-8, ISBN13: 9781466644748, IGI_Global (In Press).

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

Veriden Bilgiye, Bilgiden Bilgi Birikimine, Bilgi Birikiminden Bilgeliğe Yolculuk

Veriden Bilgiye, Bilgiden Bilgi Birikimine, Bilgi Birikiminden Bilgeliğe Yolculuk

Veri bilimi, aslında bir yolculuk. Her bir veri madenciliği projesi bir yolculuk ve bu yolculukta duraklar var. Bu duraklar sırasıyla şunlar:

  • Veri (Data)
  • Bilgi (Information)
  • Bilgi birikimi (Knowledge)
  • Bilgelik (Wisdom)

Yolculuk veriden bilgiye, bilgiden bilgi birikimine, ve son aşamada da bilgi birikiminden bilgeliğe doğru gerçekleşiyor.

Bu yolculuğu ve durakların sırasını, aynı zamanda her durakta rastlayacağımız nicelik (miktar) ile birlikte -piramit metaforu kullanarak- özetleyen harika bir bilgi grafiği var, paylaşmak istediğim:

http://www.informationisbeautiful.net/2010/data-information-knowledge-wisdom/

Elimizde herhangi bir anda en bol miktarda bulunan nesne somut veri (data). Üstelik oldukça da kirli çoğu zaman. Buradan ilk aşamada daha az miktarda, ancak daha anlamlı olan bilgiye (information) ulaşmaya çalışıyoruz. Yeterince bilgi biriktikten sonra buradan bize gerçek anlamda faydalı olabilecek bilgi birikimine, ya da bir diğer ifadeyle bilgi dağarcığına (knowledge) ulaşmaya çalışıyoruz. Son olarak bu bilgi dağarcığının özümsenmiş, bir anlamda ziplenmiş hali olan bilgeliğe (wisdom) ulaşmaya çalışıyoruz.

Veri miktar olarak çok fazla, ancak değeri az, ve operasyonel bir zaman diliminde birikiyor. Diğer uçta yer alan bilgelikte ise miktar belki az, ancak nitelik çok yüksek, katma değer oldukça fazla. Bilgelik kısa zamanda değil, göreceli olarak daha uzun zaman dilimlerinde birikiyor ve bize stratejik kararlarımızda yol gösteriyor.

Tüm veri bilimcileri bu yolculuğu defalarca yapmıştır. Sizlere de bu keyifli yolculuğu yapabileceğiniz ve bilgeliğe ulaşacağınız projeler ve bu projelerde yol gösterebilecek bilge ve fedakar mentorlar diliyorum.

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

 

Veri Bilimine Nereden Başlasam, Nasıl Anlasam?

Kariyerim boyunca çok sayıda yeni konuya gözü kara bir biçimde girdiğim için benim de en çok sorduğum sorulardan biri “Nereden başlamalı?” sorusu olmuştur.

Veri Bilimi için bu sorunun çok basit bir yanıtı var. İster son derece teknik bir geçmişten, isterseniz de teknik olmayan bir geçmişten geliyor olun, size veri bilimini sevdirerek, örnekler üzerinden anlatacak, üstelik bunu yaparken sizi en yaygın yazılımlardan biri konusunda yetiştirecek olan bir kitap var.

Bu kitap “RapidMiner: Data Mining Use Cases and Business Analytics Applications” kitabı.

Kitaptaki her bir bölüm, size veri madenciliğinin, veri biliminin bir konusunu uygulamalı olarak, üstelik RapidMiner yazılımını kullandırarak öğretiyor. Üstelik her bölümde bir verinin üzerinden gidiliyor ve bu verilerin tamamı kitabın resmi İnternet sitesinden indirilebiliyor:

http://rapidminerbook.com/

Bu kitabı tavsiye ederken kitapta benim de bir bölümüm olduğunu, ve bu sebeple tam olarak tarafsız davranamıyor olabileceğimi kabul etmem gerekiyor. Meslektaşlarım Dr. Dilek Tapucu ve İnanç Arın ile yazdığımız bölümün başlığı “Text Mining with RapidMiner”, ve bu bölümün basımdan önceki bir sürümünü İnternet’ten indirerek metin madenciliğinin temellerini de buradan öğrenebilirsiniz.

Burada önemli bir bilgiyi de vermem gerekiyor:

Eğer verinizin boyutları yeterince büyük ise (mesela gigabaytlar seviyesinde ya da daha büyük ise) bu durumda uzun vadede RapidMiner yazılımını kullanamayabilirsiniz, ve bulut üzerinden R ya da Hadoop gibi büyük veri araçlarına ve sistemlerine ihtiyaç duyabilirsiniz. Ancak bence Hadoop ya da benzeri araçları kullanacak dahi olsanız veri madenciliği tekniklerinin ve veri biliminin temellerini yine de biliyor olmanız gerekiyor. Bu sebeple kanımca, her halükarda bu tarz, teknikleri uygulamalı öğrenebileceğiniz bir eğitim tecrübesinden geçmeniz gerekiyor. Ve bu tür bir tecrübe için klasik veri madenciliği kitapları yerine kollarınızı sıvayarak taşın altına elinizi daldırtacak bu tür bir kitap ya da video serisinden başlamanızı öneriyorum.

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

Hoşgeldiniz!

Veri-Bilimi.org

Veri-Bilimi.org – Veri Bilimi blog’uma hoşgeldiniz!

Bu blogu, veri bilim konusunda çalışan ya da çalışmak isteyenlerle bilgi ve tecrübelerimi paylaşmak için hazırlamaya  karar verdim. Bu blog’dan edineceğiniz bilgilerin hayatınızı kolaylaştırmasını ve başarınızı arttırmasını diliyorum.

Sağlık, mutluluk, ve başarı dileklerimle,

Gürdal Ertek

gurdalertek.org

E-posta: isimsoyisim@gmail.com (isimsoyisim yerine gurdalertek yerleştiriniz)

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası