Açık bilim, açık erişim, açık devlet, açık veri, açık teknoloji gibi kavramları uzmanlarıyla konuşacağımız Sertel Şıracı ile Açık Kürsü program serimizin sekizinci bölümünde İstanbul Teknik Üniversitesi İşletme Mühendisliği Öğretim Üyesi Doç. Dr. Nihan Yıldırım ile beraberiz.
– Büyük Veri Nasıl Tanımlanabilir?
– Büyük Veri Kimlerin, Kimler için?
– Şirketlerin/Kurumların Tekelinden Nasıl Çıkarılabilir?
– Açık Veri Büyük Verinin Neresinde?
– Açık Veri ile Büyük Veri Arasındaki Farklar Hangi Parametreler İle Tanımlanabilir?
Başlıklarını konuştuk.
Yeni bölümümüzü 29 Mart 20:00’dan itibaren Youtube’da izleyebilir veya podcast kanallarımızdan (Spotify, Apple Podcast, Google Podcast, Deezer, SoundCloud vb.) dinleyebilir, metin deşifresini videomuzun altında bulabilirsiniz.
Yeni bölümlerde görüşmek üzere. Lütfen sosyal ağlarda AVTED’i takip etmeyi unutmayın ve geri bildirimlerinizi bizimle paylaşmaktan çekinmeyin.
Sertel Şıracı: Değerli izleyenler, Açık Veri ve Teknoloji Derneği’nin Açık Kürsü Programına hoş geldiniz! Açık veri alanında dijital külliyat oluşturmaya çalıştığımız video serisinde yine bir başka programda sizlerle birlikteyiz. Bildiğiniz gibi bir süredir bir dizi halinde çekimlerimizi yapıyoruz ve arşivlemeye çalışıyoruz. Bugünün konusu ise artık yavaş yavaş Büyük Veri’ye geldi. Tabi Açık Veri konuşup Büyük Veri konuşulmaz mı? Bugünki konuğumuz ise İstanbul Teknik Üniversitesi İşletme Mühendisliği Bölümü Öğretim Üyesi Sayın Doçent Doktor Nihan Yıldırım. Hocam, hoş geldiniz!
Nihan Yıldırım: Hoş bulduk, merhabalar herkese. Teşekkür ederim beni davet ettiğiniz için.
S. Şıracı: Rica ederiz hocam, kırmayıp katıldığınız için biz çok teşekkür ediyoruz. İlk soru ile başlayayım. Aslında tabii bir tanım ortaya koymak lazım. Büyük veriyi nasıl tanımlayabiliriz? Bu konuyla başlayalım hocam, sorularımızı buna göre devam ettireceğiz.
N. Yıldırım: Teşekkür ederim. Büyük Veri yeni bir kavram değil aslında. 98’de ilk Silicon Graphics’in bilinen bir siması olan eşi tarafından dile getirilmiş. O zaman Büyük Veri altyapı gerilimi dalgası konuşulurken gündeme getirilmiş. Sonra da ekonometrik tarafında yani ekonomistlerin dikkatini çekip 2000’lerde Diebold tarafından yeniden Büyük Veri dinamik faktör modelleri tanımı içinde geçmiş bir kavram. İlk olarak ise Ekonometrik Kongresi’nde geçmiştir.
Büyük Veriyi herkes hacim olarak büyük olarak algılıyor. İlk duyduğumuzda biz de öyle algılamıştık ama aslında beş boyutu var. Bu sonra sekize, dokuza çıktı ama şu an 5 “V” veya 4 “V” olarak başladı. 5 “V”; Variety, Volume, Velocity, Veracity, Value. Işte değer, hız, çeşitlilik, hacim diye Türkçeye çevirebiliriz. Çok hacimli, büyük hacimli, farklı veri yapılarında olan, farklı formatlarda olan, çabuk artan, eksponansiyel artan, yani hızın eksponansiyel olduğu artış hızını ve anlamlı olması gereken bir değer, ekonomik, sosyal bir değer sağlaması gereken bir veri tipi diye tanımlandı Büyük Veri. Sonra Büyük Verinin doğrulanması, o işe yararlılığının, geçerliliğinin, değerlerinin doğrulanması açısından Veracity de eklendi. Doğru olması da gerekiyor Büyük Verinin yani her veri büyük veri değildir. Böyle başladı hikaye ama en son geldiğimiz noktada benim artık takip edebildiğim kadarı ile viralliği eklendi. Bir “V” daha eklendi, görselleştirilmesi (visualization) eklendi. Viskozitesi eklendi. Yani 8 9 “V” ile tabir edilen tanımlanan bir veri tipi oldu diyebiliriz.
S. Şıracı: Evet hocam, peki bu Büyük Veri’nin biraz da içeriğini konuşmak lazım. Yani tabii son zamanlarda yapay zekayı çok konuşmaya başladık. Aslında temelinde artan veri var, yapay zeka hepimiz için yeni bir şey değil ama hepimiz için yeni olarak böyle popüler bir konu olarak son yıllarda önümüzde. Bu noktada Büyük Veri kimler için faydalı, Büyük Veri kimlere ait? Biz Büyük Veri dediğimiz zaman içeriğinde nelerden bahsediyoruz, biraz daha derinlemesine konuşabiliriz.
N. Yıldırım: Tabii, Büyük Veri ilk zamanlarda yapılandırılmamış veri ile çok karıştırıldı. Aslında bizim kurumsal ve kişisel verimiz yapılandırılmıştır yani veri tabloları vardır. Veri tablolarının içinde özelliklerini içeren işte kolon, sütun tiplere ya da hücre tipleri vardır, saha tipleri vardır. Bunlar yapılandırılmış verilerdir. Bunlardan sorgulama yapabiliriz, rapor alabiliriz, istediğimiz gibi kullanırız eğer altyapımız varsa. Büyük Veri yapılandırılmamış veriyi de içeriyor. Yapılandırılmış veriler de giderek büyük veriye dönüşüyor bu arada. Yani aslında biz bunu yapılandırılmış yapılandırılmamış diye ikiye ayırıyorduk. Bir taraftan da kaynağına göre ayırıyorduk.
İki veri kaynağımızdan bakarsak ki biri insan biri bilgisayar veya ona ekipman ya da makine diyebiliriz. Makine ve insanın ürettiği veriler diye bakarsak şuan örnek olarak bizim yapılandırılmış taraftan büyük veriye baktığımızda sensör verilerini örnek verebiliriz. Her yerde sensörle nesnelerin interneti ya da şeylerin interneti olarak bakarsak, her yerimiz sensörler ile doldu. Finansal veriler, bütün o işlemlerin verileri, satış verileri, bütün internette yaptığınız web’de yaptığımız bütün işlemlerin tıklama verileri, hareketlerimiz bunların hepsi makine tarafından üretilen yapılandırılmış Büyük Veridir.
Bir de insanın tabii ürettiği, çeşitli girdiği yapılandırılmış veriler var. Asıl sorun yapılandırılmamış ya da asıl fırsat riskli olan taraf pozitif ya da negatif yapılandırılmamış verilerdedir. Burada insana bakarsanız yapılandırılmış Büyük Veriye sosyal medya ile üretilen verileri örnek veririz. Web sitesinin bütün içeriği ki bunların hepsi yapılandırılmış değildir, kullanılmış değildir. Mobil verilerimiz, tüm lokasyon verilerimiz, bütün metinler aslında raporlar ve dökümanlar… Bilgisayar tarafına baktığımız makine tarafından üretilmiş yapılandırılmamış verilere bakarsanız da bütün işte haritalar şu an yapılandırılmış gibi görünse de bunları birleşik kullanmak, anlamlandırmaya doğru kullanması için yeni yapılandırma gerektiği için yapılandırılmamış diyebiliriz. Radarlar, fotoğraflar, videolar, hatta bilimsel veriler bu sürekli işte artık süper bilgisayarların falan gördüğümüz müthiş verileri var. Bu veri kaynağına göre değişiyor yani yapılandırılmamışlar bizim için hem fırsat hem zorluk içerenlerdir.
S. Şıracı: Biz ama bir şekilde de aslında bu verinin de şirketler veya kurumların elinde olduğunu görüyoruz. Kamunun elinde inanılmaz büyük bir veri var haliyle. Bir de bunun dışında şirketlerin elinde veriler var. Az önce sosyal medyayı zikrettik. Bütün satın almalarla vs. orada bir tekel oluşuyor. Esasen bu da hem şirketlerin hem kamu kuruluşunun elindeki bu veriyi biz nasıl onların kontrolünden çıkartacağız sorusunu doğuruyor. Açık veriye doğru geleceğim de buradaki yaklaşımınız nedir hocam?
N. Yıldırım: Aslında şimdi bakacak olursak kişisel verimiz var. My data dediğimiz, benim verim… Bu verinin bir kısmı aslında devlet verisi de oluyor, benim verim olduğu halde. Haliyle bütün veri dünyasına bakarsak; koca bir set veri altında Büyük veri var onun altında da küçücük bir açık veri var. Bu açık verinin bir kısmı benim, bir kısmı kurumun. Benim verim devlete açık ya da benim verim bankama açık. Kişi olarak verimi koruyamıyorum. Fakat buna rağmen benim verim benim yararıma, toplumun yararına, hatta ekonomik yarara yönelik çevresel yarara yönelik kullanımlarda benim verim olmasına rağmen kurumların elinde. Çünkü böyle bir sözleşme yapılıyor baştan. Haliyle Büyük veri aslında şu anda kurumların denetiminde ve bu bireylerin verisini içeren bir veridir.
Bu bireyin kendi verisi kendisinin değil. Bu kadar düzenlemeler, KVKK olmasına rağmen kurumun benle ilgili topladığı veriyi ben kullanamıyorum. Bunu benim için başkaları da kullanamıyor. Büyük verinin büyük bir kısmı aslında devlet verisi olarak görülüyor dünyada. Ama kesişim noktası olarak Büyük veri ile açılabilir devlet verisine baktığımız zaman hava, GPS, sağlıkla ilgili veriler gibi bir kısmı büyük veri ile devlet verisi arasına düşüyor. Ama benim için önemli olan kurumsal veriler de var. Onların çok azı müşteri şikayetleri gibi veriler daha açığa yakınlaşıyor. Biz baktığımız zaman Büyük Veriyi en çok kullanan tarafın aslında biraz eski ama 4, 5 yıllık bir rapor bu rapora göre açık verinin yine devletten geldiğini görüyoruz. Kurumlar özellikle finans, sigorta gibi kurumların daha kapalı kaldığını görüyoruz.
Bir taraftan da tabi doğa verileri var. Bu da o verileri bilimsel kullanımda olduğu için en açıklar da onlar gibi duruyor. Doğa veri setlerine daha kolay ulaşıyoruz ama bir sosyal alanda yani insan için kullanılmasına geldiğimiz zaman sosyal alanda oldukça kısıtlı işletmecilikle ilgili veya lojistikle ilgili veya profesyonel seslerle ilgili veriler kapalı. Sağlık çok özel bir veri seti ama diğerleri kapalı maalesef.
S. Şıracı: Evet, tabii az önce aslında sınıflandırma yaptık, Büyük verinin içerisinde Açık verinin de olduğundan bahsettik. Ama yine de burada Açık verinin aslında yükselen bir durumda olduğunu da görüyoruz. Burada sizin için Açık veri, Büyük verinin neresindedir şeklinde genel bir soru sorayım sizlere.
N. Yıldırım: Açık veri aslında yükselen bir trend gösteriyor dediğiniz gibi. Bir anlamda bizim şimdi Büyük veri dışında bir de ilişkilendirilmiş link data dediğimiz bir şey var, asıl işimize yarayan data da odur. Büyük verinin kullanımı konusundaki araştırmalarda zaten çok büyük bir artış oldu ve şu anda büyük bir birikim oluştu. Açık veri kullanımıyla ilgili araştırmalarda çok fazla olmasına rağmen Türkiye özelinde baktığımızda çok sınırlı olduğunu görüyoruz.
Açık veride lisanslama yok, kimse bu verinin hiçbir sahibi olmayacak böyle kaotik bir durum olacak gibi bir taleple oluşmuyor. Tam tersi izlenebilir, eksiklikleri 4 V’de çok eksik var veride onların da evrimsel olarak tamamlandığı, daha değerli hale geldiği, daha kullanışlı, daha analitiği besleyen veri setlerinin oluşmasına yönelik bir oluşum olarak Açık veriyi destekliyoruz. Bu anlamda büyük verinin içinde açık verinin oranının artması herkesin kazanacağı bir arayüz olacak. Ama burada bazı yönetişim mekanizmalarının olması gerekiyor ki ilişkilerin kurulabilmesi gerçekleşebilsin. Yani bizim için bağımsız veri setleri tek başına da çok anlamlı ama biz bunların aralarındaki ilişkileri araştırdığımız için öngörücü analitikler için bunları birleştirme hakkına da sahip olmamız gerekiyor. Yani link edebileceğimiz bir veri dünyasına ihtiyacımız var. Hala böyle küçük inisiyatiflerle ben verimi açtım deyince evet çok güzel biz onun için de örneğin işte belli sağlık sorunları ilgili öngörüler yapabiliriz. Biz belli suç oranları, suç analitiği yapabiliriz.
Bunların hepsi çok değerli. Bilimsel çok önemli şeyler yapabiliriz ama bunların arasındaki ilişkiyi kurmak için bu paylaşıcıların bu birleştirmeye de izin vermeleri gerekiyor. Artı birilerinin bunlar nasıl birleştirilebileceği de yönetmesi ve tasarlaması gerekiyor. Orada bazı sorunlar bütün dünyada hala devam ediyor açmış olsalar bile. Açmamış olmak zaten hala çok kanayan bir yara. Yani Büyük verinin açık olmaması durumunda birkaç tane profesyonel ticari insiyatifin elinde analitik de kullanıp bunun üzerinden yeni iş modellerinin gelişmesi dışında bir yarar sağlanamayacağını da gördük son dönemde.
S. Şıracı: Evet tabi işletmeler için çok kıymetli konudan bahsediyoruz çünkü işte yükselen bir trend dedik ve herkes bununla ilgili bir şeyler geliştirmeye çalışıyor. Bir yandan da aslında belki bu profesyonel şirketleri büyük ya da küçük hatta kamu için Türkiye özelinde de düşünürsek işte belediyelerimiz var ve ellerinde inanılmaz bir veri var esasen. Aslında açmakla ilgili çok sıkıntıları yok, mevzuatlarda olabileceği gibi önünü açıyor fakat evet az önce konusu da geçtik kişisel verinin korunması kanunu diye bir konu çıkınca acaba mı olmaya başladı herkes. Ticari sır içermeyen sadece kişisel veri de konuşmayabiliriz. Ticari sır da içermeyen içinde ticari bir ya da bir rekabette bir başkasını öne geçirmeyecek bazı verilerde olabilir. Burada konu anonimleştirmede doğru gidiyor. Biz bunu nasıl öğretebiliriz? Nasıl projeler sunulabilir veya bu korkuyu tersten söyleyim ya bunun korkulacak bir şey yok aslında bunu açabilirsinizi biz nasıl anlatabiliriz gerek özel işletmelere gerek kamuya bununla ilgili fikirleriniz var mıdır hocam?
N. Yıldırım: Bu tabii büyük bir soru, bunun cevabı keşke bende olsa. Ama şöyle bir şey oldu; biz İTÜ’de birçok bölümdeki akademisyenler, öğrenciler olarak veri analitiği çalışıyoruz. Biz mesela sürekli bu taleple karşı karşıya kalıyoruz. Dünya Akademisi adına naçizane konuşayım… DATA Analisti, veri bilimcisi üretin çünkü artık değeri çok. Biz bunları analiz edecek kimseyi bulamıyoruz diye. Fakat biz veri olmadan birkaç tane Kaggle da orada burada set bularak nasıl eğiteceğiz bu işgücünü diye de sorduk. Ben hatta bunu LinkedIn’de de paylaşmıştım, sağolsun çok büyük kurumlarımızdan harika yaklaşımlarla üniversite sanayi işbirlikleri kurduk. Bunu birçok üniversitede, İTÜ’de de diğer bölümlerde de yapabiliyoruz.
Ben şunu gördüm; ölçek büyüdükçe cesaret artıyor. Yani o veri yönetiminin yetkinliği arttıkça açılmaya doğru da yöntem bilgisi arttığı için daha cesur olunuyor. Biz gerçekten çok rekabetçi, çok sektör lideri bazı şirketler ile veri analitiği çalışmaları yapabiliyoruz. Maskeli veri geliyor. Bu veri dediğim gibi belli bir sorun bağlamıyla gelmesi önemli. Belli bir sorundan bahsediyorsak veri seti ve bunun kullanımıyla ilgili protokoller de konuşulabiliyor. Girişimcilik dünyasında olan şey bence veri dünyasında da oluyor. Herkes çözüme aşık kimse aslında problemi, sorunu, ihtiyacı yeterince anlamadığı için ihtiyacı ikna olmadığı için de veri ile ilgili kapalılık birden öne çıkıyor. Çünkü bunun üstünde ne için yapacaksınız değil ne yapacaksınız önemli. Ne için yapacağımız anlaşınca zaten yöntem kendisini gösteriyor. Zaten maskeli olması belli yerlerde anonimleştirmesi, belli yerlerde yeni ver setlerin ile beslenme gereği ortaya çıkacaktır. Veri yönetimi yetkinliği veri biliminin analitik tarafında bu öngören tarafındaki yükselen hype ile bu modayla oldukça geride kaldı diye düşünüyorum. Bir davanız var burda veriyle ilgili ve bunu herkes bilmiyor.
Ben şunun da altını çizmek istiyorum burada. Mesela Twitter bize bütün verisini açıyor. Yani API’ınızı veriyorsunuz o da size bir sürü verisini kullandırıyor. Kimsenin de canı yanmıyor. Çünkü burada bir hukuksalda olan etikte olan karşılıklı işbirliğinin faydaları da olan bir model var. Yani veri paylaşımı modelleri çalışmalı birileri diye hep düşünüyoruz. Bununla ilgili bir sürü sizin de daha iyi ifade edebileceğiniz modeller var ama benimsenme oranı penetrasyonu henüz tamamlanmadı. Yani bu veriyi ne için kullanacaksınızın, hangi ihtiyaç için kullanacaksınızın daha çok konuşulması bence verinin şurasını verememden daha ikna edici olabilir diye düşünüyorum.
S. Şıracı: Tabii tarihte de hep böyledir. Açık paylaşım, açıklık kültürü belki oturduğu sürece aslında kamusal bir faydaya da bir süre sonra dönüştüğünü hep birlikte görüyoruz. Umarız bu bilişim teknoloji alanındaki dijital veriler içinde o noktaya geliriz ve herkesin derdi çözülür. Hocam çok doğru diyorsunuz yani umarız bu girişimler olur ve biz de dernek olarak elimizden geleni yapmaya çalışıyoruz.
N. Yıldırım: Çok değerli bir gelişim, çok önemli bir insiyatif… Ellerinize sağlık, emeklerinize çok sağlık.
S. Şıracı: Katkılarınız için çok teşekkür ederiz. Bizim sorularımız bu kadar hocam. Var mıdır eklemek istedikleriniz?
N. Yıldırım: Yani ben işbirliği diyeceğim. Sizin gibi sivil inisiyatifler aracılığıyla belki önce bilinçlendirme gerçekleşir. Planlı davranış teorisi vardır; Önce farkındalık sonra tutum sonra niyet sonra davranış gelişir. Onun için bence bu bilgilendirmeyi büyük adımlardan biri olarak görüyorum. Açık veri yakındır yani yakın zamanda hepimiz deneyimleyeceğiz inşallah.
S. Şıracı: Çok teşekkürler hocam katkılarınız için.
N. Yıldırım: Ben teşekkür ederim.
S. Şıracı: Evet değerli izleyenler Açık Kürsü’nün bugün de sonuna gelmiş bulunuyoruz. Bugün Büyük Veri konuştuk ve konuğumuz da Doçent Doktor Nihan Yıldırım’dı. Haftaya bir başka konu ile tekrar sizlerle birlikte olmak üzere diyoruz. İyi günler.