Yanlışlardan ders çıkarmak: Veri görselleştirmede yaptığımız hatalar — (Çeviri)

Veri görselleştirme, veri haberciliğinin en önemli adımları arasında yer alıyor. Aynı zamanda haber merkezlerinin en fazla mesai harcadığı alanlardan bir tanesi. Peki, veri görselleştirmesi yaparken nasıl hatalar yapıyoruz? Dikkat etmemiz gereken noktalar neler? Bu haftaki okuma köşemizde, The Economist’in veri görselleştirme uzmanı Sarah Leo daha önce yaptığı hatalarını inceliyor ve bu hatalardan nasıl ders çıkarabileceğini anlatıyor. Sarah Leo’nun yazısını Yönetim Kurulu üyemiz Sabri Ege’nin çevirisiyle okuyabilirsiniz.

The Economist’te veri görselleştirme işini ciddiye alırız. Her hafta, basılı gazete, websitesi ve uygulamalarımızda kırka yakın grafik paylaşırız. Her yaptığımız paylaşımda, sayıları en doğru şekilde görselleştirmek ve haberi en iyi şekilde desteklemek için elimizden geleni yapıyoruz. Ama bazen yanlış yaptığımız da oluyor. Hatalarımızdan ders alırsak gelecekte işimizi daha iyi yapabiliriz. Aynı şekilde başkaları da bu hatalardan bir şeyler öğrenebilir.

Arşivimizde derin bir araştırmadan sonra öğretici olabilecek birçok örnek buldum. Veri görselleştirmede yaptığımız hataları, işlediğimiz ‘suçları’ ’üç kategoriye ayırdım. Yanıltıcı (1), kafa karıştırıcı (2) ve bir şey ifade etmeyen (3) grafikler… Bu hataların her biri için, basılı gazetede yayınlanacak grafikleri çizerken önemli bir etken olabilecek, aynı miktarda alan gerektiren geliştirilmiş bir versiyon önerdim.

“Kısa bir hatırlatma: Orijinal grafiklerin birçoğu, kendi haritalarımızı tasarlamadan önce yayınlandı. Geliştirilmiş grafikler yeni özelliklerimize uyacak biçimde çizildi. Yani her versiyondaki veriler aynı.”

1. Yanıltıcı Grafikler

Veri görselleştirmede yaptığımız en kötü hatayla başlayalım: veriyi yanıltıcı bir şekilde sunma. Bunu katiyen kasıtlı olarak yapmıyoruz. Ama bu sıklıkla başımıza gelen bir şey. Şimdi arşivimizdeki üç örneğe bir göz atalım.

Hata: Ölçeği kısaltmak

Bu grafik, sol partilerin sayfalarındaki paylaşımların Facebook beğeni sayılarının ortalamasını gösteriyor. Bu grafiğin amacı Corbyn’in paylaşımlarıyla diğerleri arasındaki açık ara farkı göstermek.

Orijinal grafik Corbyn’in beğeni sayısını önemsizmiş gibi göstermekle kalmıyor, aynı zamanda diğer partilerin paylaşımlarındaki oranı da abartılı gösteriyor. Yeniden geliştirilmiş versiyonunda, Corbyn’in çubuğunun tamamını kapsayacak şekilde gösterdik. Diğer çubuklar da görünür olarak kalıyor. Bu bloğun hırslı takipçileri bu hatanın bir kötü versiyonunu daha görmüş olacaklar.

Bir diğer tuhaf şey ise renklerin seçimi. Corbyn, diğer parlementerler, partiler ve grupları birbirlerinden farklı göstermek için turuncu/kırmızının üç gölgesini kullandık. Bunu açıklamıyoruz! Bu renklerin arkasında yatan mantık birçok okuyucu tarafından belli olsa da, İngiltere siyasetine daha az vakıf olanlar için bir şey ifade etmeyecektir.

Hata: Nitelikli ölçekler arasında zorlama bir ilişki kurma

Yukarıdaki grafikte köpek ağırlıklarının azalması üzerine bir hikaye anlatılıyor. İlk bakışta, köpek ağırlığının ve boyun ölçülerinin tamamen birbiriyle ilişkili olduğu anlaşılıyor. Peki gerçekten öyle mi? Sadece belirli açılardan.

Orijinal grafikte, iki ölçekte üç derece eksiliyor (sol taraftan 21’den 18’e, sağ taraftan ise 45’ten 42’ye). Yüzdelik hesaba göre, sol ölçek %14 oranında azalırken, sağdaki ölçek %7’lik bir düşüş yaşıyor. Yeni düzenlenen grafikte, bu çift ölçeği korudum, ancak karşılaştırılabilir oransal bir değişikliği göstermek amacıyla aralıklarını ayarladım.

Bu grafiğin eğlenceli konusunu düşünecek olursak, bu hata görece ikincil görünebilir. Grafiğin mesajı her iki versiyonda da aynı. Ama asıl önemli olan nokta: Eğer iki dizi birbirini çok yakından takip ediyorsa, onların ölçülerine daha yakından göz atmak iyi bir fikir olacaktır.

Grafiği indir

Hata: Yanlış görselleştirme şekli seçme

Günlük haber uygulamamız Espresso’da bu anket grafiğini (polling chart) yayınladık. AB referandumu sonucuna yönelik eğilimleri, doğrusal grafik şeklinde gösteriyor. Verilere bakıldığında, ankete cevap verenlerin, bir haftadan diğerine artan ve azalan yüzdelik dilimleriyle, oldukça değişken/düzensiz bir görüşünün olduğu görülüyor.

Anketteki eğilimleri göstermek için düzleştirilmiş bir eğriyle çizmek yerine, her bir anketin gerçek değerini birleştirdik. Kurum içi grafik oluşturma aracımız düzleştirilmiş çizgiler (smoothed lines) çizemediği için böyle bir şey meydana geldi. Yakın zamana kadar, daha karmaşık görselleştirmelere olanak sağlayan R gibi yazılımlarla çok rahat çalışamıyorduk. Bugün ise, hepimiz yukarıda yeniden düzenlenen grafikteki gibi bir anket grafiğini çizebiliyoruz.

Bu grafikte dikkat edilmesi gereken bir diğer husus, ölçeğin kırılma şekli. Orijinal grafik veriyi olması gerekenden daha geniş bir alana yayıyor. Yeniden düzenlenen versiyonunda, ölçeğin başlangıcı ile en küçük veri noktası arasında biraz daha boşluk bıraktım. Francis Gagnon bununla ilgili güzel bir çözüm öneriyor: doğrusal bir grafiğin altında sıfırdan başlamayacak şekilde, en az %33 oranında bir çizim alanı boşluğu bırakın.

Grafiği indir

2. Kafa Karıştırıcı Grafikler

Yanıltıcı grafikler kadar kötü olmasa da, okunması zor olan grafikler kötü görselleştirmenin bir işaretidir

Hata: Zihin egzersizini birazcık abartmak

The Economist’te zihin egzersizi gazeteciliği üretimi için teşvik ediliyoruz. Ama bazen, bunu abarttığımız da oluyor. Yukarıdaki grafikte ABD’nin ürünler arasındaki ticaret açığı ve imalatta çalışan kişi sayısı gösteriliyor.

Grafik, okunması son derece zor bir halde. İki önemli problemi var: İlki, veri setlerinden birinin (ticaret açığı) değerleri tamamen negatifken, diğerinin ise tümüyle pozitif değerlerde. Her iki veri setini açmadan, bu gibi farklılıkları tek bir grafikte birleştirmek epey zor bir iş. Bunun görünen “çözümü” ikinci soruna yol açıyor: Veri setlerinin ikisi de ortak bir taban çizgisini (baseline) paylaşmıyor. Ticaret açığı taban çizgisi grafiğin en yüksek seviyesindeyken (gövdenin yarısına kadar çizilen kırmızı çizgiyle vurgulandı) sağdaki ölçeğin taban çizgisi ise en alt kısımda yer alıyor.

Yeniden düzenlenmiş grafik, her iki veri serisinin tek bir grafikte birleştirilmesine gerek olmadığını gösteriyor. Ticaret açığı ile imalat istihdamı arasındaki ilişki belirgin olarak kalmaya devam ediyor ve sadece çok miktarda fazladan alan kaplıyor.

Grafiği indir

Hata: Renklerin kafa karıştırıcı kullanımı

Bu tablo, hükümetlerin emeklilik maaşlarına yaptığı harcama miktarını, 65+ yaş grubundaki kişilerin payını Brezilya’yı odak noktası alarak karşılaştırıyor. Grafiği daha küçük tutmak için, tasarımcı sadece belirli sayıda ülkeyi seçmiş ve bunları meneviş mavisiyle etiketlemiş. OECD ortalaması ise açık maviyle vurgulanmış.

Görselleştirme uzmanı (ben!) renklerin değişiminin kategorik bir değişim anlamına geldiğini hesaba katmamış. Hemen ilk bakışta, bu tabloda da görülebileceği üzere, tüm meneviş mavisi renkler koyu mavi olan farklı bir gruba aitmiş gibi görünüyor. Ancak durum böyle değil. Tek ortak noktaları, her ikisinin de etiketlenmek için seçilmiş olmaları.

Yeniden düzenlenmiş versiyonunda, tüm ülkeler için aynı daire rengi seçildi. Diğerlerinin öne çıkması için etiketlenmemiş olanların renk şeffaflığını değiştirdim. Gerisini tipografi yapıyor: Brezilya, odak noktası olan ülke, kalın yazıyla ve OECD ortalaması da italikle yazılmış.

Grafiği indir

3. Asıl göstermek istediğini gizleyen grafikler

Bu son kategorideki hatalar diğerlerine göre daha az belirgin. Bu grafikler kafa karıştırıcı veya yanıltıcı değil, sadece yanlış görselleştirildikleri ya da çok az bir alanda sıkıştırıldığı için asıl istediklerini göstermekte başarısız oluyorlar.

Hata: Çok fazla detay eklemek

Ne gökkuşağı ama! Bu grafiği Almanya’nın bütçe fazlası üzerine bir makalede yayınladık. 10 Avrupa ülkesinin bütçe ve cari hesap bakiyelerini gösteriyor. Bu kadar fazla renkle -bazılarının değerleri küçük olduğu için ayırt etmek hatta görmek bile oldukça zor- grafiğin mesajını anlamak imkansız. Neredeyse gözlerinizi bulandırıp sayfayı değiştirmenize neden oluyor. Daha da önemlisi, tüm Avrupa ülkelerini ekleyemediğimiz için, verileri bu şekilde kümelemenin hiçbir anlamı yok.

Grafiği biraz da olsa basitleştirmenin bir yolunu aramak için makaleye tekrar göz attım. Makale Almanya, Yunanistan, Hollanda, İspanya ve Avrupa bölgesinin genelinden bahsediyordu. Diğer ülkelerle ilgili sorunu çözmek için, geri kalan tüm Avrupa ülkelerini içeren “diğerleri” adında başka bir kategori ekledim. (Yeniden düzenlenen grafikteki toplam cari hesap bakiyesi, orijinal grafikteki değerden daha düşük. Bunun nedeni Eurostat tarafından gerçekleştirilen bir veri değişikliği.)

Grafiği indir

Hata: Bir sürü veri, yeterli olmayan alan

Sayfadaki kısıtlı bir alanla sınırlandırılmış olmamıza rağmen, elimizdeki tüm verileri küçük bir alana sıkıştırmaya zorlarız. Bu her ne kadar sayfadaki önemli bir alanı kurtarsa da -Mart 2017’den kalma grafikte görülebileceği üzere- belli sonuçları oluyor. Hikaye bilimsel yayıncılığın nasıl erkekler tarafından domine edildiği üzerine. Tüm veriler aynı derecede ilginç ve hikayeyle bağlantılı. Ancak bu kadar çok veri ekleyerek — dört araştırma katerorisiyle beraber mucitlerin payı- herhangi bir bilginin kavranması oldukça zor.

Uzun süre düşündükten sonra, Bu grafiği yeniden düzenlememeye karar verdim. Tüm verileri tutacak olsam, grafik özlü bir hikaye olmayacak kadar büyük olurdu. Bu gibi durumlarda, bir şeyleri kırpmak daha mantıklı oluyor. Alternatif olarak, bir tür ortalama ölçüsü gösterebiliriz, örneğin: tüm alanlardaki kadın yayınlarının ortalama payı. (Lütfen bunu daha dar bir alanda görselleştirmek konusunda herhangi bir fikriniz varsa bana yazın! Fikirlerinizi duymayı çok isterim.)

Grafiği indir


Veri görselleştirmedeki en iyi pratikler hızla gelişiyor: bugün kabul edilebilir olan yarın olumlu bir şekilde karşılanmayabilir. Yeni ve daha iyi teknikler sürekli bir gelişme halinde. Kolayca düzeltilebilecek veri görselleştirme hatası yaptınız mı daha önce? O zaman bize haber verin!


Yazar: Sarah Leo — The Economist
Orjinal makale: https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368