Kötü Veriyi Düzeltmenin 5 Yolu

Gazeteci , iş insanı ya da akademisyen olarak çalışmalarınızı etkileyebilecek bir yığın veri var. Bu verilerin görselleştirilmesi, analiz edilmesi gerekiyor haber merkezinizde, üniversitenizde, şirketinizde istenen kalitede işler çıkmasını sağlayabilmeniz için. Problem ise bu verilerin iyi şekilde oluşturulmaması. Bazı veriler yaygın olarak ” kötü veri” olarak  bilinir. Bu şu anlama gelir önemli bilgiler eksiktir, doğru şekilde kaydı yapılmamıştır, yanlış formatlıdır ya da güncel değildir. Bazı kötü verilerin düzenlenmesi uzmanlar, yazılımcılar tarafından ele alınması gerekirken, bazılarının siz tarafından onarılması gerekir. 

Quartz çok kapsamlı bir rehber oluşturdu kötü veri ile nasıl başa çıkılır konulu.  Github’da da bulunabilir.

Rehberden özet bazı bölümler şöyle:

Kötü veriyi düzenlemenin 5 yolu:

1) Veri PDF Formatında 

Büyük oranda veriler – özellikle devlet verileri- sadece PDF formatında oluyor.  Eğer PDF’de  iyi seviyede kazıyabilecek metinler , içerikler var ise bu bilgiyi alabilecek bir kaç iyi seçenek var.

Çözüm: Açık kaynak iyi bir araç Tabula kullanılabilir.  Ancak Adobe Creative Cloud’unuz var ise  Acrobat Pro’yu da kullanabilirsiniz, bu araçla da PDF’lerden mükemmel şekilde veriyi Excel’e aktarabilirsiniz.

2) Veri çok bölümlü /detaylı olabilir 

Verinin çok yüzeysel olmasının karşıtı anlama geliyor bu. Örneğin  ilçeler var elinizde ama siz şehirleri istiyorsunuz ya da aylar var elinizde ama siz yılları istiyorsunuz.  Ve bu durum oldukça yaygın.

Çözüm: Veriler, bir SQL veritabanı kullanarak veya özel kod yazarak Excel veya Google Dokümanda özet tablo özelliği kullanılarak birleştirilebilir. Özet Tablolar ( Pivot Tables) her muhabirin öğrenmesi gereken önemli bir araç. Ama özet tabloyla yapabileceklerinizin limiti olduğu için  Microsoft Excel ‘den ekleyebileceğiniz 6 eklentiyi de kurabilirsiniz: analysis toolpak, power pivot, solver, random generator, quandl, fred),  bu eklentilerle pro seviyede veriyi bulma, analiz etme hizmetlerinden daha etkili şekilde yararlanabiliyorsunuz. Çok büyük verisetleri ve onların birleştirilmesi konusunda programcılarla çalışmanız da gerekebilir.

3) İnsan hatası-  girişler ve manüel  düzenleme 

İnsanların veri girişlerini yapması sonucunda hataların oluşması oldukça yaygın bir sorun. İnsan tarafından girilen verilerde hata oranı çok yüksek. Manüel düzeltmeler de yine insanlar tarafından yapıldığı için yine insan odaklı hataların devam etmesine neden oluyor, bunun nedeni ise verinin orijinalini düzenleyen  kişinin bilmemesi.

Çözüm: Manüel girişlerde  veriden emin olma konusu oldukça önemli çünkü  kaynağınızın neresi olduğunu, nereden alındığını  açık şekilde göstermeniz gerekiyor. Kaynağın net olmaması birinin rahatlıkla yapılan işi önemsememesinin yolunu açacaktır.  Akademi sıklıkla verilerini devletten, anketlerden alır. Gazeteciler de bunlardan yararlanır. Verilere yönelik herhangi bir değişiklik kaydının olmaması, veri üzerinde nasıl bir değişiklik yapıldığını anlamak neredeyse imkansız olur. Olabildiğince verinin gerçek kaynağına ulaşmak gereklidir böyle bir durumda.En azından en güncel, en son versiyonuna ulaşmak çok önemlidir. Sonrada bunun üzerinden analizinizi yapabilirsiniz.

4) Hata payı oranı (HPO)bilinmiyor ya da çok büyük 

Bazen problemin hata oranı umursanmıyor, ya da nereden kaynaklı üzerinde durulmuyor.  Bilimsel olmayan anketler bir örnek. Bilgisayar olmadan hata payı oranını bilmek / anlamak neredeyse imkansızdır. Diğer büyük problem ise hata oranı büyük olan sayıların kullanılması. Bunlar genellikle anket verileriyle ilişkili olabiliyor.  Seçim verileri kullanılacak ise ağırlıkta resmi kurumların seçim verilerini incelemelisiniz.

Çözüm: Genel kural, ne zaman bir anketin verisini kullanırsanız mutlaka  HPO (Hata Payı Oranı ) sormalısınız. Eğer kaynak size bunu vermiyor ise, kullanmanız da doğru olmayacaktır analiz için. HPO çok büyük ise kullanmanız ile ilgili tam bir kural olmasa da ,  yüzde 10 üstünde Hata Payı oranı olan  verileri kullanmada dikkatli olunmalıdır.

5)  Zaman Dilimi ya da  Referans Yapısı maniple edilmiş ise

Bazı kaynaklar bilmeyerek ya da bilerek veri  tarihlerini değiştirilmiş olarak yaygınlaştırırlar. Ya da spesifik bir zaman diliminde başlar  veri vb. Ya da bir veriniz referans yapısı  maniple edilmiştir.

Suç verileri örneğin çok sık politikacılar tarafından karşılaştırma için kullanılır ve önceden daha fazla iken, kendi yönetimleri döneminde düştüğünü vb. örnekler sunarlar.  Örneğin 2004 yılından bu yana yüzde 60 düştü ya da endeks ile ifade edilebilir  100 iken 40’a düştü gibi. Her iki durumda da  bu karşılaştırma için  iyi bir örnek değil.
Bu örnek ya da başka örnek önemli değil, 2004 yılı belkide karşılaştırma için uygun yıl olmayabilirdi. Alışılmadık suç oranlarının oldukça yüksek olduğu bir yıl olabilirdi. Aynı durum yer /mekan/şehir karşılaştırmalarında da oluyor. Biri bir ülkeyi kötü göstermek istediğinde kısa yoldan verileri kullanarak bunu yapabiliyor , daha iyi olan bir ülkenin verilerini kullanarak .

Çözüm: Zaman bilgisi sınırlı olan bir veriniz var ise ilk yıllar ile hesaplama yapma ve kullanmadan kaçınmalısınız. Bir kaç yıl öncesinden başlıyorsanız  ( ya da ay ve günler)  o zaman daha rahat olabilirsiniz karşılaştırmayı tek bir veri noktası ile gerçekleştirmediğiniz için. Zaman dilimine yönelik manipülasyonlar  insanların çok fazla konfirme bekledikleri ve yargıyla baktıkları bir süreci doğurabiliyor.   Mümkün olduğunca  farklı kaynakları kullanarak karşılaştırma yapınız.