All posts by admin

Veri Görselleştirmesi Çeşitleri ve Örnekleri

Bu yazımızda veri görselleştirmesi örnekleri sunarak konunun daha iyi kavranmasını sağlamaya çalışacağız.

Bu yazıda sunulacak görselleştirmeler, Tableau yazılımı (http://www.tableausoftware.com/) ile oluşturulmuştur ve kullanılan veri, olimpiyatlarda kazanılan derecelerin verisidir (OlympicAthletes.xlsx) ve örnek verilerin bulunduğu şu adresten indirilmiştir:

http://www.tableausoftware.com/public/community/sample-data-sets

Gelin şimdi örnek görselleştirmelere bakalım:

1. Ülkelere göre alınan toplam altın madalyaların dağılımı

Ülkelere göre alınan toplam altın madalyaların dağılımı

Bu görselleştirmede harita üzerinde hem renk hem de rakam ile, her bir ülkenin yıllar boyunca aldığı toplam madalya sayısı görülmektedir. Daha koyu renkler daha çok madalya alındığını göstermektedir. Görselleştirmeden, ABD başta olmak üzere, Çin, Rusya, Almanya, Kanadar ve Avustralya’nın çok sayıda altın madalya aldığı görülebilir.

Bu görselleştirmenin Tableau yazılımında oluşturulması için solda gösterilen görsel model kurulmuştur.

Görselleştirmeyi daha detaylı görmek için üstüne tıklayabilirsiniz.

2. Yıllara ve spor dallarına göre toplam madalya sayılarının dağılımı

Yıllara ve spor dallarına göre toplam madalya sayılarının dağılımı

Bu görselleştirmede ise her bir spor dalında yıllar bazında dağıtılan toplam madalya sayılarının dağılımı görülmektedir. En çok madalyanın atletizm ve futbolda dağıtıldığı görülmektedir. En az madalya ise, sadece 2002, 2006, 2010 yıllarında dağıtılan kış sporlarında görülebilmektedir.

3. Madalyaların ülke ve yıllara göre dağılımı

Madalyaların ülke ve yıllara göre dağılımı

Bu görselleştirmede ise sadece 2008, 2010 ve 2012 yılları için ülkeler bazında madalyaların dağılımı görülmektedir. 2008 yılına göre 2012’de İngiltere’nin başarısının arttığı uzayan çubuktan gözlemlenebilir. Ayrıca 2010 yılındaki kış olimpiyatlarında Rusya, Çin ve Avustralya’nın yaz olimpiyatlarına kıyasla başarısının düştüğü görülebilir. Son olarak, yaz olimpiyatlarında en üst sıralarda yer alamayan Norveç ve Finlandiya’nın 2010 yılındaki kış olimpiyatlarında ciddi başarı kaydettikleri görülebilir.

4. En başarılı atletler ve yarıştıkları spor alanları

En başarılı atletler ve yarıştıkları spor alanları

Bu görselleştirmede, tüm yıllara bakıldığında en çok altın madalya alan atletlerin sıralamasını, yarıştıkları spor alanı ile birlikte görebiliyoruz. Verideki zaman diliminde en başarılı atletin açık farkla Michael Phelps olduğu ve yüzme alanında yarışarak efsane haline geldiği görülebilir. Bunun ardından en başarılı iki atlet ise bisiklette yarışan Chris Hoy ve atletizmde yarışan Usain Bolt olarak görülmektedir.

Bu yazımızda verdiğimiz bu örneklerin yanısıra “data visualization” şeklinde arama yaparak çok sayıda görselleştirmeye ulaşabilirsiniz. Veri ve/veya bilgi görselleştirme örneklerini derleyen ve yayınlayan popüler bazı İnternet siteleri ise şunlardır:

http://visual.ly

http://infosthetics.com

http://www.informationisbeautiful.net/

Ayrıca Tableau yazılımı ile oluşturulmuş diğer görselleştirme örnekleri için şu sayfayı ziyaret edebilirsiniz:

http://www.tableausoftware.com/learn/gallery

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

Veri Görselleştirmesi ve Bilgi Görselleştirmesi – Çizge Görselleştirmesi

Çizge (graf) görselleştirmesi

Geçen yazımızda veri görselleştirmesi (data visualization) ve bilgi görselleştirmesi (information visualization) terimlerini sizlere tanıtmış, veri görselleştirmesinin ne olduğunu bir örnekle anlatmış, ve daha sonra aralarındaki farkı anlatacağımızı belirtmiştik.

Bu yazımızda, geçen yazımızda sorduğumuz ikinci sorunun yanıtını vereceğiz. Çok basit ikinci bir örnekle veri görselleştirmesinin ne olduğunu açtıktan sonra veri görselleştirmesi ve bilgi görselleştirmesi arasındaki farkı çok basit iki örnekle göstereceğiz.

Hatırlarsak, bu iki kavramın özü aynı: Elimizdeki veri ya da bilgileri görsel araçlarla gösterip, buradan çıkarımlar yapabilmek, kavrayışlara (insights) erişebilmek, ve bize faydalı olabilecek hareket tarzların (policy) ve stratejilere (strategy) ulaşabilmek.

Gelin, hem veri ve hem de bilgi görselleştirmesi olarak kategorize edebileceğimiz bir örnek sunalım. Yukarıda bir görselleştirme görüyorsunuz. Bu grafik görselleştirme, İstanbul Sanayi Odası (İSO) tarafından her yıl yayınlanan Türkiye’nin 500 Büyük Sanayi Kuruluşu verisinden oluşturulmuştur. Her bir daire, “bisküvi, çikolata, atıştırmalık” kategorisinde yer alan bir gıda firmasını göstermektedir. Dairelerden beyaz renkli olanlar, operasyonel verimliliği diğerlerine göre en yüksek olan verimli firmalardır. Diğerleri ise verimlilik konusunda kendini geliştirebilecek firmalardır. A dairesinden B dairesine her bir ok ise, A firmasının B firmasını kendisine örnek alabileceğini belirtmektedir.

Bu grafik, çizge (graf) görselleştirmesine (graph visualization, graph drawing) bir örnektir, ve hem veri ve hem de bilgi görselleştirmesi örneği olarak düşünülebilir. Zira görselleştirilen, hem veri ve hem de bilgi olarak kategorize edilebilir.

Şimdi, bilgi görselleştirmesi olarak nitelendirilebilecek, fakat veri görselleştirmesi olarak nitelendirilemeyecek bir grafik örneği görelim:

http://www.edudemic.com/wp-content/uploads/2013/06/620x593xgood-infographic-620×593.png.pagespeed.ic.XKyW8_Wk0q.png

Burada bir ham veri değil, bir bilgi görselletirilmiştir.

Şimdi de veri görselleştirmesi olarak nitelendirilebilecek, fakat bilgi görselleştirmesi olarak nitelendirilemeyecek birkaç grafik örneği görelim:

http://prattmiller.com/veils/default/modeling/cfd

Buradaki görselleştirmeler bir bilginin değil, sadece ham verinin gösterimini kapsamaktadır. Bu sebeple sadece veri görselleştirmesi olarak kategorize etmek uygun olacaktır.

Özet olarak, görselleştirilen şey, sadece veri, sadece bilgi, ya da hem veri ve hem de bilgi olarak kategorize ediliyor olabilir, ve isimlendirme de buna göre yapılır. Böylece, veri görsellştirmesi ve bilgi görselleştirmesi arasındaki farkı da örneklerle açıklamış olduk, ve bu arada çizge (graf) görselleştirmesine de örnek verdik.

Bu grafiğin yer aldığı makaleyi (İngilizce) okuyabilirsiniz:

Ertek G., Sevinç, M., Ulus, F., Köse, Ö., Şahin, G. (2014) “Industrial Benchmarking through Information Visualization and Data Envelopment Analysis: A New Framework”, in I. Osman, A.L. Anouze and A. Emrouznejad (eds.) Strategic Performance Management and Measurement Using Data Envelopment Analysis, DOI: 10.4018/978-1-4666-4474-8, ISBN13: 9781466644748, IGI_Global (In Press).

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

Veri Görselleştirmesi ve Bilgi Görselleştirmesi – Verilerin Görsel Analizi

İstanbul Sanayi Odası'nın Gıda Firmaları Sıralaması

Veri görselleştirmesi (data visualization) ve bilgi görselleştirmesi (information visualization). Bazen bu terimler yerine veri gösterimi ya da bilgi gösterimi terimlerine de rastlayabilirsiniz. Bu iki terim ile ilgili akla ilk gelen kritik sorular şunlar olabilir:

  1. Veri görselleştirmesi ve bilgi görselleştirmesi nedir?
  2. Bu ikisi arasındaki farklar nelerdir?

Bu yazımızda ilk sorunun yanıtını vereceğiz. Çok basit bir örnekle veri görselleştirmesinin ne olduğunu anlatacağız.

Aslında bu iki kavramın özü aynı: Elimizdeki veri ya da bilgileri görsel araçlarla gösterip, buradan çıkarımlar yapabilmek, kavrayışlara (insights) erişebilmek, ve bize faydalı olabilecek hareket tarzların (policy) ve stratejilere (strategy) ulaşabilmek.

Gelin, bunu çok basit bir örnekle açıklayalım. Yukarıda bir görselleştirme görüyorsunuz.

Bu grafik görselleştirme, İstanbul Sanayi Odası (İSO) tarafından her yıl yayınlanan Türkiye’nin 500 Büyük Sanayi Kuruluşu verisinden oluşturulmuştur.Grafikte x ekseni firmanın 2009 yılındaki sıralamasını, y ekseni ise 2010 yılındaki sıralamasını göstermektedir. Renkler ise firmaların verimliliğini göstermektedir.

Sağda 7 firmanın bir hizada dizilmiş olduğunu görmektesiniz. Bunlar, 2009 yılında ilk 500 sıralamasında yer almadığı halde 2010 yılında sıralamada yer alan firmalar. Bunların arasında Besler’in ve Namet’in en altta yer aldıklarını görüyoruz. Bu iki firma, bir yıl içinde birdenbire ilk 500 sıralamasına girmekle kalmamış, aynı zamanda ilk 150 firma arasında girmişlerdir (y değerleri 150’den küçüktür, sıralamada ilk 150’dedirler).

Bu grafikten daha birçok bilgiyi okuyabiliriz, ancak sadece bir örnek daha verelim: Acaba 2009’da listede olmadığı halde 2010’da listeye giren firmalardan operasyonel verimliliği en iyi olan hangisidir?

Bu sorunun yanıtı da çok basit. Grafiğin sağında hizalanmış gördüğümüz firmalardan en açık renkli olanları bulmaya çalışacağız, çünkü sağ üst köşedeki baremden görüleceği üzere beyaz renk en yüksek operasyonel verimliliğe işaret etmektedir.

Eğer Kerevitaş dediyseniz sorunun cevabını bildiniz, çünkü en açık renkli olan nokta Kerevitaş’a ait.

Bu grafiğe bakarak aşağıdaki soruların yanıtlarını verebilir misiniz?

  • 2009’a kıyasla 2010’da sıralaması düşen firmalar hangileri?
  • 2009’da kıyasla 2010’da sıralaması yükselen firmalar hangileri?
  • Sıralaması değişmeyen firmalar hangileri?

Bu grafiğin yer aldığı makaleyi (İngilizce) okuyabilirsiniz:

Ertek G., Sevinç, M., Ulus, F., Köse, Ö., Şahin, G. (2014) “Industrial Benchmarking through Information Visualization and Data Envelopment Analysis: A New Framework”, in I. Osman, A.L. Anouze and A. Emrouznejad (eds.) Strategic Performance Management and Measurement Using Data Envelopment Analysis, DOI: 10.4018/978-1-4666-4474-8, ISBN13: 9781466644748, IGI_Global (In Press).

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

Veriden Bilgiye, Bilgiden Bilgi Birikimine, Bilgi Birikiminden Bilgeliğe Yolculuk

Veriden Bilgiye, Bilgiden Bilgi Birikimine, Bilgi Birikiminden Bilgeliğe Yolculuk

Veri bilimi, aslında bir yolculuk. Her bir veri madenciliği projesi bir yolculuk ve bu yolculukta duraklar var. Bu duraklar sırasıyla şunlar:

  • Veri (Data)
  • Bilgi (Information)
  • Bilgi birikimi (Knowledge)
  • Bilgelik (Wisdom)

Yolculuk veriden bilgiye, bilgiden bilgi birikimine, ve son aşamada da bilgi birikiminden bilgeliğe doğru gerçekleşiyor.

Bu yolculuğu ve durakların sırasını, aynı zamanda her durakta rastlayacağımız nicelik (miktar) ile birlikte -piramit metaforu kullanarak- özetleyen harika bir bilgi grafiği var, paylaşmak istediğim:

http://www.informationisbeautiful.net/2010/data-information-knowledge-wisdom/

Elimizde herhangi bir anda en bol miktarda bulunan nesne somut veri (data). Üstelik oldukça da kirli çoğu zaman. Buradan ilk aşamada daha az miktarda, ancak daha anlamlı olan bilgiye (information) ulaşmaya çalışıyoruz. Yeterince bilgi biriktikten sonra buradan bize gerçek anlamda faydalı olabilecek bilgi birikimine, ya da bir diğer ifadeyle bilgi dağarcığına (knowledge) ulaşmaya çalışıyoruz. Son olarak bu bilgi dağarcığının özümsenmiş, bir anlamda ziplenmiş hali olan bilgeliğe (wisdom) ulaşmaya çalışıyoruz.

Veri miktar olarak çok fazla, ancak değeri az, ve operasyonel bir zaman diliminde birikiyor. Diğer uçta yer alan bilgelikte ise miktar belki az, ancak nitelik çok yüksek, katma değer oldukça fazla. Bilgelik kısa zamanda değil, göreceli olarak daha uzun zaman dilimlerinde birikiyor ve bize stratejik kararlarımızda yol gösteriyor.

Tüm veri bilimcileri bu yolculuğu defalarca yapmıştır. Sizlere de bu keyifli yolculuğu yapabileceğiniz ve bilgeliğe ulaşacağınız projeler ve bu projelerde yol gösterebilecek bilge ve fedakar mentorlar diliyorum.

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası

 

Veri Bilimine Nereden Başlasam, Nasıl Anlasam?

Kariyerim boyunca çok sayıda yeni konuya gözü kara bir biçimde girdiğim için benim de en çok sorduğum sorulardan biri “Nereden başlamalı?” sorusu olmuştur.

Veri Bilimi için bu sorunun çok basit bir yanıtı var. İster son derece teknik bir geçmişten, isterseniz de teknik olmayan bir geçmişten geliyor olun, size veri bilimini sevdirerek, örnekler üzerinden anlatacak, üstelik bunu yaparken sizi en yaygın yazılımlardan biri konusunda yetiştirecek olan bir kitap var.

Bu kitap “RapidMiner: Data Mining Use Cases and Business Analytics Applications” kitabı.

Kitaptaki her bir bölüm, size veri madenciliğinin, veri biliminin bir konusunu uygulamalı olarak, üstelik RapidMiner yazılımını kullandırarak öğretiyor. Üstelik her bölümde bir verinin üzerinden gidiliyor ve bu verilerin tamamı kitabın resmi İnternet sitesinden indirilebiliyor:

http://rapidminerbook.com/

Bu kitabı tavsiye ederken kitapta benim de bir bölümüm olduğunu, ve bu sebeple tam olarak tarafsız davranamıyor olabileceğimi kabul etmem gerekiyor. Meslektaşlarım Dr. Dilek Tapucu ve İnanç Arın ile yazdığımız bölümün başlığı “Text Mining with RapidMiner”, ve bu bölümün basımdan önceki bir sürümünü İnternet’ten indirerek metin madenciliğinin temellerini de buradan öğrenebilirsiniz.

Burada önemli bir bilgiyi de vermem gerekiyor:

Eğer verinizin boyutları yeterince büyük ise (mesela gigabaytlar seviyesinde ya da daha büyük ise) bu durumda uzun vadede RapidMiner yazılımını kullanamayabilirsiniz, ve bulut üzerinden R ya da Hadoop gibi büyük veri araçlarına ve sistemlerine ihtiyaç duyabilirsiniz. Ancak bence Hadoop ya da benzeri araçları kullanacak dahi olsanız veri madenciliği tekniklerinin ve veri biliminin temellerini yine de biliyor olmanız gerekiyor. Bu sebeple kanımca, her halükarda bu tarz, teknikleri uygulamalı öğrenebileceğiniz bir eğitim tecrübesinden geçmeniz gerekiyor. Ve bu tür bir tecrübe için klasik veri madenciliği kitapları yerine kollarınızı sıvayarak taşın altına elinizi daldırtacak bu tür bir kitap ya da video serisinden başlamanızı öneriyorum.

Veri Bilimi Blog’unu Facebook’tan takip için “Like” edebilirsiniz:

YurtdısiEgitimYasam.com Facebook Sayfası