Açık bilim, açık erişim, açık devlet, açık veri, açık teknoloji gibi kavramları uzmanlarıyla konuşacağımız Sertel Şıracı ile Açık Kürsü program serimizin 11. bölümünde veri anonimleştirme konusunda uzman bir isim olan Prof. Dr. Yücel Saygın konuğumuz oldu ve sorularımızı yanıtladı.
- Veri anonimleştirme nedir?
- Anonimleştirme hangi durumlarda ve neden gerekli?
- Veri anonimleştirmede ne gibi risklerle karşılaşılabilir?
- Anonimleştirmeye nereden başlamalı? – Anonimleştirmede hangi teknikler ve yöntemler kullanılır?
- Anonimleştirmeyi hangi alanlarında kullanmak zaruridir?
- Veri anonimleştirmede uzman olmak için neler yapmak gerekir?
Yeni bölümümüzü 31 Mayıs 20:00’dan itibaren Youtube’da izleyebilir veya podcast kanallarımızdan (Spotify, Apple Podcast, Google Podcast, Deezer, SoundCloud vb.) dinleyebilir, metin deşifresini videomuzun altında bulabilirsiniz.
Yeni bölümlerde görüşmek üzere. Lütfen sosyal ağlarda AVTED’i takip etmeyi unutmayın ve geri bildirimlerinizi bizimle paylaşmaktan çekinmeyin.
Sertel Şıracı: Herkese merhaba, Açık Veri ve Teknoloji Derneği’nin Açık Kürsü programına hoş geldiniz! Bildiğiniz gibi programımızda her hafta açık veri ve teknoloji ile ilgili belirlenmiş konuları konuşarak bir dijital külliyat yaratma çabasındayız. Geçmiş programları takip edebilenler belli bir sıralamanın olduğunu da fark edecektir. Bugün de anonimleştirme konusunu konuşacağız. Tabii konu anonimleştirme olunca da bu konuda aslında ilk söylemlerde bulunmuş olan hocalarımızdan bir tanesi bizlerle birlikte; Sayın Profesör Doktor Yücel Saygın, hocam hoş geldiniz!
Prof. Dr. Yücel Saygın: Hoş bulduk! Çok teşekkürler çağırdığınız için.
S. Şıracı: Rica ederiz hocam siz de kırmadınız geldiniz ve veriyi aslında bilgiyi açık hale getireceğiz sizlerle birlikte. Bir katkı daha sunmuş olacağız bu konuyla ilgili. Girişte de bahsettiğim gibi anonimleştirme konuşacağız bugün. O yüzden isterseniz klasik olduğu üzere küçük bir tanımla başlayalım. Veri anonimleştirme nedir diye sizlere sormak istiyorum.
Prof. Dr. Y. Saygın: Tamam ben de elimden geldiğince cevaplandırmaya çalışayım. Şimdi daha önceki programlarda kişisel veriler gayet güzel anlatılmıştı zaten. Kişisel veri, gerçek kişiler ile ilişkilendirilecek, gerçek kişiyi tanımlayan veridir. Bunun dışında hassas veriler var. Hassas veri de daha çok başkalarıyla belki paylaşmak istemeyeceğimiz; din, ırk, cinsel hayat, hastalık vesaire gibi bilgilerimiz hassas veri kapsamına giriyor. Şimdi birçok veri toplanıyor farklı kuruluşlar tarafından, şirketler tarafından, devlet tarafından. Bu verinin önemli bir kısmı hassas veri ve kişisel bilgilerle beraber saklanıyor.
Veriyi aynı zamanda kullanmak gerekiyor. Yani veri çağımızın işte petrolü deniyor. Bundan bir sürü derivativ ürünler, servisler çıkarmak gerekiyor. Bu yüzden de zaten açık veri çok önemli ama kişisel veri, hassas veri ve işte başka verilerin belki de daha değerli olabilecek olduğu veri tabanları olduğu gibi açamıyoruz. Niye? Bunları üçüncü kişilerle paylaştığımızda ya da açık hale getirdiğimizde hassas veriler problem oluşturuyor. Bu zaten veri koruması kanunları tarafından regüle edilmiş. Şimdi eğer biz bu veriyi anonim hale getirirsek diyor ki regülasyon bunu paylaşabilirsiniz. Anonim hale getirmek ne demek? Buradaki kayıtlar diyelim kişisel bilgileri zaten çıkarıyoruz yani işte isim soy isim ondan sonra işte kimlik numarası vesaire gibi bilgileri çıkarabiliyoruz başka şeyler de olabilir. Fotoğraflar olabilir, biyometrik olabilir, bunlar hep kişileri belirleyen veriler. Bunları zaten çıkarmamız gerekiyor ama sadece bunları çıkarmak yetmiyor.
Eskiden mesela 20 yıl önce kişiyi belirleyen kısımların çıkarıyorlarmış veriden ondan sonra hassas veri ve diğer kısımları direkt olarak açık hale getiriyorlarmış ya da üçüncü kişilerle paylaşıyorlarmış. Tabii bu aslında veri anonimleştirme değil. Yani verinin içinde isim soyisim ile TC kimlik numarası olmaması bu hassas verilerin başka verilerle eşleşmeyeceği anlamına gelmiyor. Dolayısıyla anonimleştirme aslında tam olarak şu: Eğer veri tabanındaki kayıtları gerçek kişilerle ben eşleştiremiyorsam anonimleşmiş oluyor bu veri. Yani kime ait oldugu belli değil ama tabii bu dediğim aslında belki işte tabiri caizse yüzde yüz anonimleştirme. Yani kişi kişilerle eşleştirmek mümkün değil standart ve ama tabi bunu elde etmek mümkün değil. Yani ya da kritik olarak mümkün değil ya da böyle bir verinin kullanım açısından sıkıntıları var. Yani belki de yayınladığımızda çöp hale geliyor. Dolayısıyla bu veriyi açmadan önce kişisel bilgileri çıkarıyoruz ama onun üzerine bir sürü işlemler yapmak gerekiyor. Bu yapılan işlemlerle de veri belli standartlara, belli anonimleştirme standartlarına uymuş olur.
Aslında şöyle bir örnek vereyim. Mesela işte bir oda var, odanın içinde 10 tane insan var. Bu insanların önünde bilgisayarlar var ve bir şeyler yazıyor bu insanlar ve bu yazılanlarda odanın dışında işte başka bilgisayar tarafından okunabiliyor. Şimdi eğer ben her kişiye bir numara verirsem işte birinci kişi ikinci kişi gibi onuncu kişiye kadar. İşte birinci kişi şunu dedi ikinci kişi bunu dedi diyorum. Yani diyorum ki birinci kişinin dedikleri bunlar ikinci kişi dedikleri bunlar. Şimdi bunu niye yapıyorum? Sonuçta bunlar futbol maçı hakkında konuşuyorlarsa problem değil ama politik bir konuda konuşuyorlarsa, hassas bir konuda konuşuyorlarsa görüşlerini daha iyi ifade etmek için kim olduklarını gizlemek ihtiyacı duyabilecekler. Dışarıdan bakan bir kişi söylenenlerin kime ait olduğunu bilmez değil mi? Yani sadece işte birinci kişi şunu dedi, ikinci kişi bunu dedi şeklinde bilgiye sahip olur. Ama eğer bir üçüncü kişi var ve bu üçüncü kişi odada kimler olduğunu biliyor. Arka plan bilgisi diyoruz buna. Bu durumda aslında kısmi bir anonimlik söz konusu. Yani mesela biliyorum ki işte biri bunu demiş ötekisi başka bir şey demiş ama şeyi bilmiyorum; Ahmet şunu dedi ve Mehmet bunu dedi bilgisine sahip değilim. Bu durumda ne olmuş oluyor? Aslında veri kısmi olarak anonimleştirilmiş oluyor. Yani insanları bu 10 kişi içinden hangisi olduğunu ayırt edemiyorum.
S. Şıracı: Tabii buraya kadar getirdiğimiz kısım çok önemli. Biz burada aslında neden ve niye bu anonimleştirme üzerinde duruyoruzu güzel bir örnekle açıklamaya başladınız hocam. Bu şekil devam edebiliriz ve devamında da nasıl yapılacağını da ben size sormuş olayım araya girmişken o zaman.
Prof. Dr. Y. Saygın: Tamamdır, şimdi çok basit olarak ben ne yapmış oluyorum, ufak bir anonimleştirme yapmış oluyorum. Diyorum ki işte kimin söylediği söylenenlerle kişileri eşleştirmiyor ama söylenenleri açık hale getiriyorum. Bu kısmi bir anonimleştirme olabiliyor.
Şimdi burada ne gibi problemler olabilir? Mesela diyelim politik bir şey olsun. X Partisi hakkında bu 10 kişinin hepsi negatif bir şey söylüyorsa bu durumda aslında tabii ki anonim bir şey ama bu üçüncü kişi diyor ki ha işte buradakilerin hepsi şu konuda şunu düşünüyor konusunu bulabiliyor. Ee yani sonuçta arka plandaki kişinin bilgileri artı bu paylaşılan hassas bilgilerin niteliği anonimleştirmeyi zorlaştırıyor. Çünkü hassas veriyi tanımlamamız gerekir ve veriyi anonimleştirdikten sonra diyoruz ki işte ancak 10 kişiden biri bu kişi bu veriyle eşleşen ama hangisi olduğu belli değil. Bunu dediğimiz anda kısmi anonimleştirme oluşuyor. Biz buna k-anonymty siyoruz, en temel standartlarından bir tanesi ve bunun aslında hani tam olarak mahremiyeti kurmadığı da ispatlanmış. Hasta bilgilerini söylüyorum, bu hastaları gruplara ayırıyorum ki 10 kişilik gruplar halinde başka veri ile eşleştirdiğimde hassas veri ile kimlik bilgileri bir şekilde eşleşiyor ama 10 kişiden hangisi olduğunu bilemiyorum. Algoritmaların parametrelerine göre değişin bir durum tabii, on da olabilir yüz de olabilir. Burada dediğim gibi hassas veri eğer çok homojen ise mesela işte hastalık verisi bütün hastalar HIV pozitif. Bu durumda ne olmuş olacak? Karşı taraf bu hastaların hepsinin hassasiyetine ulaşmış oluyor. Böyle komplikasyonları var.
S. Şıracı: Evet, aslında burada biraz risklerini de konuşmuş olduk ve aslında dertlerimizden bir tanesi de bu. Çünkü gittikçe veri de artıyor hali ile. Veriyle iş yapan sektörler de çok fazla arttı ve açık verinin kıymeti de biraz buradan gelmeye başlar. Çünkü yine bilgisayarla ilgili her türlü bilimle ilgilenen, veri temelli, her türlü ekonomik yatırım yapan herkesin derdi aslında bu kişisel veriden arındırılmış ve anonim hale getirilmiş dediğimiz ve ticari veriden de arındırılmışı ekleyebiliriz bunun yanına. Bu verilere ulaşabiliyor olmakla ilgili sorunumuz var. Bu noktada tabii kanunlar da aslında mesela bir tersten de şöyle bir sorunumuz var. Sorun diye söylemiyorum ama KVKK şu an gündemde. Bizim için çok daha yeni mevzuat hala ülkemiz için. Fakat biraz da korkutucu bir yapısı oluşmaya başladı. İnsanlar belki bir süre sonra veriyle iş yapma konusunda da soğuyacaklar. Çünkü bir risk görüyorlar oradan. Bu noktada mevzuatlarla aslında iş yapmayı da öğretmek de gerekiyor. Yani açık veriyi ortaya koymamız gerekiyor. Bu noktada nedir konusunu ve riski de konuşmuş olduk fakat bir yandan da peki o zaman bu insanlar bu işleri nasıl yapsınlar yani nasıl anonimleştirsinler? Bununla ilgili kurallar belli mi, standartlar belli mi o halde?
Prof. Dr. Y. Saygın: Evet, tabii çok güzel bir noktaya değindiniz ama çok da zor bir soru aslında. Tam olarak cevaplanmış bir soru değil akademide de. Çünkü herhangi bir veriyi açık hale getirdiğiniz anda, üçüncü kişiyle paylaştığınız anda bir mahremiyet riski doğuyor. Herhangi bir veri için bu böyle. Anonimleştirme çalışmaları akademide yaklaşık 20 yıl önce falan başlamıştı. 98- 99 aralığında ilk çalışmalar çıktı. K- anonimity diye bir standart ortaya çıkardılar ve buna ulaşmak için nasıl algoritmalar oluşturulacağı, veriyi nasıl işlememiz gerektiği konusunda yayınlar yapıldı. Sonra diğer araştırmacılar dediler ki k-anonimity de şöyle şöyle problemler olabiliyor. Size az önce anlattığım gibi. O zaman yeni bir standart geliştirelim, buna işte l-diversity diyelim. Teknik olarak daha sonra tekrar anlatırım ama ondan sonra l-diversity ile ilgili problemler çıktığını gördüler. Onun üzerine yeni standartlar geliştirirler vesaire. En sonunda dediler ki bu anonimleştirme için alfabenin bütün her harfini kullandık, yeni algoritmalar bulmak için, adlandırmak için. En sonunda şey çıktı diferansiyel mahremiyet diye bir yeni bir yöntem çıktı. Diferansiyel mahremiyet standardının dediği şey şu: Veriyi kesinlikle paylaşmayacaksınız üçüncü kişilerle sadece verinin üzerinde algoritmalar çalışabilir ve bunların sonuçlarını paylaşabilirsiniz. Ama sonuçlarını da olduğu gibi paylaşamazsınız, bunlara gürültü eklemeniz lazım belli miktarda ki geriye dönülmesin ya da geriye dönme riski işte şu kadar olsun. Bu çalışma 2007- 2008 civarında ortaya çıktı. Oradan bayağı bir yayınlar çıktı.
Aslında sizin bu sorunuzun tam kesin bir cevabı yok ne yazık ki. Yalnız şöyle bir şey var bu riskin farkında olmak önemli. Yani ben şu veriyi üçüncü kişilerle paylaşmak istiyorum, belli kurallar altında ya da işte açık hale getirmek istiyorum. Şu şu şu işlemleri yapacağım bunun arkasında şu tip riskler olabiliri bilmek gerekiyor ve ve aslında bu veri anonimleştirme, mahremiyeti ya da gizliliği koruyan veri işlemesi bu dengeyi oturtmaya çalışıyor. Yani ben veriden bir değer yaratmak istiyorum ama riskler de var ya bu risk ve değeri bir dengeye oturtmak amaç. Mesela eski standart bilinen birkaç örnek vereyim ben size. Bu American Online skandalı vardır mahremiyet ile ilgili. Bilmiyorum buralarda konuşuldu mu ama American Online bir servis sağlayıcı olarak kullanıcıların webde ne sorguladıklarını saklıyor. Demişler ki biz ip’leri silelim, her şeyi silelim sadece arama kelimelerini paylaşalım. Yani üç yüz bin küsur kullanıcının işte bilmem 6 ay boyunca yaptığı aramaları paylaşmışlar. Araştırmacılar değişik modeller, makine öğrenme, veri madenciliği yöntemleri için araştırmacılar kullansın diye açmışlar. Bu arama motorlarının etkisini arttıralım şeklinde, amaç aslında çok güzel. Sonra bunu işte paylaşıyorlar, indiriliyor tabi bir sürü yerlerden veri ama birileri fark ediyor yani burada bir problem olabilir diyorlar ve veriyi hemen geri çekiyorlar. Ama bir gazeteci bir araştırma yapıyor diyor ki ben bu aramalardan insanlara ulaşabilirim diyor. Niye? Çünkü insanlar aramalarında aslında kendileriyle ilgili ipucu veriyorlar ve sonucunda arama dizisine bakıyorlar. Bir soyadı aramış birisi ondan sonra bölgesindeki işte bahçıvanları aramış, 60 yaşın üzerindeki bekar erkekleri aramış, sağlık problemleri gibi bir şeyler aramış ve bu gazeteci de bu aramalardan gitmiş bu kadını bulmuş, kapısını çalmış. Siz bu kişi misiniz, bu araları yaptınız mı demiş. Kadın da evet demiş ve bu çok büyük bir skandal oldu. Bununla bitmedi ardından başka başka skandallar da ortaya çıktı. Bundan dolayı aslında şirketler veri paylaşma konusunda çok hassaslar. Hemen paylaşmak istemiyorlar. Sebebi de bu skandallar olabilir. Şirketin güvenilirliği konusunda çok problemler oluşturuyor ve davalar açılabiliyor.
Bu örnekler tabii işin kötü yanını oluşturuyor ama iyi taraf olarak da akademik alanda bir sürü çalışmalar yapıldı ve standartlar geliştiriliyor ama yani şu anda kullanılabilecek bir şey yok. Bir alayım işte bunu kurayım veriyi göndereyim anonimleştirsin diye bir şey yok, ne yazık ki. Çünkü anonimleştirme veriye de bağlı, yapacağınız işe bağlı, risklere bağlı, nasıl bir şey oluşturmak istediğinize bağlı bir sürü problemleri var. Dolayısıyla yani IT eğitimi almış olsa bile bunun üzerine bir şeyler yapması gerekecek muhtemelen bu konuda çalışmak isteyenlerin.
S. Şıracı: Evet, burada ciddi farklılıktan bahsediyoruz esasen. Çünkü nice girişimci işte büyük veri veya yapay zeka ile ilgili işler yapmak istiyor. Hepsinin ortak paydası veri günün sonunda ve asıl dertlerden bir tanesi bu işlenen verinin gerçekten anonim olmaması gibi sorunumuz var. Çünkü neticede yapmış olduğunuz geliştirmeler ile suç işliyor olabilirsiniz farkında değilsiniz belki. Yatırımlar yapmış, hibeler almış olabilirsiniz. Bir anda biri de gelip bir dakika bu yaptığın iş kanuna aykırı diyebilir ve böyle de bir garip durumu aslında. Yani gerçekten geldiğimiz noktada böyle ilginç bir açmazın içerisindeyiz. Aslında bilerek de sormuştum size nasıl olacak diye. Evet yani bir cevabı yok, benim sizden anladığım da şu; bugün belki anonim ama 5 yıl sonra değil gibi bir şeyden de bahsediyoruz. Peki bu alan uzmanlaşılabilecek bir alan mıdır?
Prof. Dr. Y. Saygın: Uzmanlaşmak için programlama, algoritma bilgisi önemli. Son zamanlarda çok konuşulan data science, veri bilimi, veri analitiği konularında biraz uzmanlaşmak gerekiyor. Programlama ve algoritmalar konusunda bilgi sahibi olmak gerekiyor. Ondan sonra elimizde ne varsa, nasıl bir veri varsa ona uygun teknikler var. Yani bunlar yayınlanmış, software olarak hani hazır kullanılacak şekilde değil ama bu yayınları, teknikleri okuyup hangisi uygunsa uyarlayabilecek bir formasyona erişmek gerekiyor. Yani bu konuda gerçekten çalışabilmek ve güvenli bir şekilde yani oldukça güvenli şekilde veri paylaşabilmek için belki bilgisayar mühendisi ya da benzer disiplinlerin üzerine bir şeyler yapmak gerekiyor. Belki yüksek lisans iyi olabilir.
S. Şıracı: Mahremiyet ile ilgili çalışmanın farkında olmak bile kıymetli diye düşünüyoruz. Bizim soracaklarımız bu kadar sizlerin eklemek istedikleri var mıdır, hocam?
Prof. Dr. Y. Saygın: Öncelikle Türkiye’de nispeten daha yeni bir konu bu. Yani bu veri koruma kanunu 2015′ te galiba kanunlaştı. Daha doğrusu böyle bir kanuna sahip olduk. 2010anayasa değişikliği ile kişisel verilerin korunması bir anayasal hak haline geldi. Ama bunun tabi kanuni bir çerçevede tanımlanması, yaptırımları vesaire belirlenmesi daha yeni. Türkiye olarak işte Avrupa Birliği ile entegre olmaya çalışıyoruz. Sağlık turizmi için merkez olmak istiyoruz, data centerlar kurulsun istiyoruz. Tüm bunlar için çok iyi bir altyapı gerekiyor. Kanuni ve teknik bir altyapı gerekiyor. Çünkü Avrupa Birliği’nin belli standartları var. Yani veriyi sizinle paylaşabilmeleri için ya da sizin tutabilmeniz için bu standartları uymanız gerekiyor. Dolayısıyla bu konuda çok önemli bir teknik açık var. Aslında veri korumasının teknik olarak yani bu işi gerçekten iyi bilip bunu uygulayabilecek araştırmacılar ve mühendisler ya da çalışanlar çok az. Bu konuda aslında ben teşvik ediyorum yani dinleyenleri konuda master doktora yapmalarını. Çünkü gerçekten ihtiyaç var ve Türkiye’de bunlar daha da çok uygulanmaya başladığında veri koruması, mahremiyeti koruyan veri madenciliği, veri anonimleştirme gibi konularda birçok işlem olacak ve asla Türkiye’nin bu sağlık turizm merkezi olabilmesi için bile bu gerekli. Çünkü Eğer Avrupa Birliği standartlara uymaz isek Avrupa’dan bir hasta gelip kayıtlarını paylaşmaz, oluşturmaz.
Onun dışında tabii ki insanların biraz da bilgilendirmesi gerekiyor. Sizin bu yaptığınız programlar çok önemli. Belki biraz karışık anlattım ama umarım bilgi verebilmişimdir. Biz tüketici olarak da bu mahremiyet ile ilgili konulara özen göstermemiz gerek. Niye? Çünkü aslında bizim çok kullandığımız bedava servis , Google, Facebook gibi… Eğer bir şeyi ürünü bedava veriyorlarsa size bu bunun anlamı ürün sizsiniz aslında. Yani aslında biz Google ve Microsoft için bir ürünüz ve bizim verimizi toplayarak parası alabiliyorlar. Yani sonuçta bunların bütün gelir modeli insanların profillenmesi ve bu verini satılması aslında ,şirketlerle paylaşılması ya da işte reklam verilmesi. Kullanıcıların da aslında bundan haberdar olması gerekir. Yani şu anda kullandığınız bütün mobil uygulamalar, çoğu servis bizim verimizi alıp saklıyor ve bizi modelliyor. Yani bunu aslında kötü bir amaç için yapıyor. Sonuçta ticaret amacıyla ve kar amacıyla yapıyor.
Öte yandan şöyle bir durum da var, verilerin kötüye kullanılması da mümkün olabilir. Mesela işte diyelim Google aramalarımızı kullanarak aramalarınızı saklıyor, öte yandan gmail kullanıyoruz. Öte yandan belki sağlık servisi de verecek sağlık verilerinizi toplayacak bu bütün hepsi birleştiğinde ve sigorta şirketleri ile paylaştığında bize ekonomik olarak zarar verebilir. Belli bir genetik hastalığımı sigorta şirketine söylediği anda sigorta şirketi bana çok daha fazla ücret yükleyecektir. Bu gibi sonuçları olabilir.
Geçen günlerde WhatsApp ile ilgili problemler olmuştu. Tam da konuyu anlamadan bayağı bir yankı oldu aslında. Ama onun dışında aslında Google- Facebook tarzı ya da işte bizim diğer mobil uygulamalarda toplanan veriler çok çok daha problemli olabilir. O konuda dikkat etmek gerekiyor, onu da söylemem gerekiyor.
S. Şıracı: Evet günlük hayatta onunla daha çok vakit geçiriyoruz doğrusu bu ve en büyük veri oradan toplanıyor gerçekten de ve hani bize tabi ama açık veri konuşuyoruz ama evet aslında anonimleştirilmiş bir açık veriden konuşuyoruz. Hukuka uygun bir kişisel veriden konuşuyoruz. Bu noktada gerçekten de herkesin bildiği skandallar da aslında ortada ve muhtemelen de çok bilmediğimiz daha neler oluyor denebilir. O yüzden herkesin bu riski en azından bilerek, öngörerek tedbiri alması gerçekten gerekiyor. Hocam çok teşekkür ederiz bilgilendirdiğiniz için bizi, eksik olmayın hocam.
Prof. Dr. Y. Saygın: Çok sağ olun, umarım faydam olabilmiştir.
S. Şıracı: Dediğiniz gibi anonimleştirme bu işin önemli kademelerinden bir tanesi. Bir değil birkaç program birkaç defa konuşulması gereken konulardan bir tanesi mutlaka. Çünkü işin ekonomik tarafını da etkiliyor giriş kısmında da konuştuğumuz gibi. Evet değerli dinleyenlerimiz bugün konuğumuz Sayın Profesör Doktor Yücel Saygın idi ve kendisiyle önce ile açık veri ve anonimleştirme arasındaki ilişkiyi değerlendirmeye çalıştık. Teşekkür ederiz. Tekrar bir başka programda sizlerle birlikte olacağız.