2010 yılında kurulmuş olan Kaggle, Makine öğrenimi ile ilgili yarışmalara ev sahipliği yapmıştır. Zamanla popüler bir hal alan platformun asıl amacı var olan veri sorununu ortadan kaldırmaktadır. Dünyanın dört bir yanında olan binlerce veri bilimcinin kolektif zekâsından faydalanmaktadır. Şu an günümüzde de bu detayın büyük bir avantaj olarak öne çıktığı bilinmektedir. 2017 yılında da Google tarafından satın alınmış olan Kaggle, satın alınmadan sonra veri bilimi ve analitiğin alanına girmiştir. Buradaki asıl amaçsa, veri uzmanları için tek bir odak noktası haline getirmektir. Şimdilerde ücretsiz olarak kullanılabilmesinin yanında bazı konularda önemli bir destek sağlamaktadır.
Bu aşamada en çok merak edilen konu başlıklarından birisi de veri bilimi nedir sorusudur. Veri bilimi, dijital verilerin bir arada toplanması ve analiz edilmesini sağlar. Bu verilerden yola çıkarak daha bilinçli ve profesyonel kararlar alınmasında rol oynamaktadır. Tüm bu süreçlerin anlamlı ve değerli hareketlere dönüştürülmesinde etkisi vardır. Bundan dolayı veri bilimi, hacmi ne olursa olsun işletmeler için önemli bir ihtiyaç kategorisinde yer almaktadır.
Veri bilimciler genel olarak iki tür veriyi analiz ederler. Bu verilerin yapılandırılmış olması mümkün olduğu gibi yapılandırılmamış olanları da bulunmaktadır. Genel olarak bilgilendirmek gerekirse yapılandırılmış olan veriler, Excel elektronik tablosunda ya da CSV dosyasında bulunan sayısal veriler şeklinde görülebilmektedir. Yapılandırılmış verilerin genel olarak tablo şeklinde olduğunu söylemek de mümkündür. Satır ve sütunlar eşliğinde düzenlenmektedir.
Yapılandırılmamış olan veriler, sayılar, resimler, metinler, videolar ve ses dosyaları olarak karşınıza çıkmaktadır. Yapılan analizlerle beraber anlamlı iç görüler üretilmektedir. Bu da bilinçli kararların alınması anlamına gelmektedir.
Kaggle Nasıl Çalışır?
Kaggle içerisinde her yarışmada kendisi ile ilgili veri kümesi olduğu gibi ulaşılması gereken bir hedef bulunmaktadır. Örneklendirmek gerekirse konut fiyatlarının tahmin edilmesi gibi seçenekler gösterilebilmektedir. Verilere olabilecek en iyi şekilde erişim sağlanması mümkündür. Aynı zamanda tahmin edilen modeli oluşturabilirsiniz. Bunun yanında çözümünüzü bir kez daha gönderip gelecekteki gönderimler için bunu kullanmanız mümkün değildir.
Bu sayede herkes birbiriyle yarıştığı sırada aynı noktadan başlamış olur. Sorunu çözmeye çalışan herkes eşitlenir. Sorun çözümü için hesaplama gücüne sahip olanlar avantajlı konuma geçmez. Yarışmalar sırasında karmaşık seviyelere, ne kadar sürdüğüne, para ödülü olup olmadığına göre farklı şekillerde ayrılmaktadır. Bu da deneyim seviyeleri farklı olan kullanıcılar için kolaylık sağlar. Herkes kendi deneyim seviyesine sahip olan kişilerle aynı arenada yarışabilmektedir.
Kaggle Nasıl Kullanılır?
Veri bilimi için önem arz eden Kaggle kullanımında dikkat edilmesi gereken bazı detaylar bulunmaktadır. Bunları şu şekilde sıralamak mümkündür;
- Bir programlama dili seçmelisiniz.
- Verileri keşfetmek için gerekli olan temelleri öğrenmelisiniz.
- İlk makine öğrenim modelinizi eğitmelisiniz.
- Başlangıç yarışmalarını tamamlayın.
- Öğrenmelerinizi en üst düzeye çıkarmak için yarışmalısınız.
Veri Bilimi İçin Kaggle Neden Önemlidir?
Kaggle öğrenme kısmında Makine öğrenimine giriş, Python, veri temizleme gibi birden fazla faydalı kursa yer verilmektedir. Bu kursalar sayesinde makine öğretimi algoritmaları arkasındaki matematiği öğrenebilirsiniz. Aynı zamanda bir veri bilimcinin gerek duyacağı ilkeler de öğretilmektedir. Böylece gerekli olan materyallerin incelenmesi sırasında zamandan da tasarruf etmiş olursunuz. Sizler, yeni başlayan bir veri bilimciyseniz o zaman Kaggle içerisindeki veri kümelerini keşfedebilirsiniz. Günümüzde Kaggle içerisinde on binlerce veri kümesine yer verilmektedir. Sizler ilk aşamada tahmin modelini oluşturmaya başlayabilirsiniz. Bununla beraber bir yarışmaya katılabilmeniz de mümkündür.
Kaggle Yarışmaları Nelerdir?
Kaggle içerisinde birden çok yarışma türüne yer verilmektedir. Mikroskop görüntülerinde bulunan kanser hücrelerinin tahmin edilmesinden tutun, daha birçok konuyla alakalı yarışma bulunmaktadır. Bu aşamada bazı örnekler vermek mümkündür. Hangi ülkelerde en çok depremin olduğunu anlamak için sismik dalgaların analiz edilmesi, illere göre tarım faaliyetlerinin tahmin edilmesi gibi seçenekler bulunmaktadır.
Kaggle’a Nasıl Üye Olunur?
Kaggle kullanmaya başlamak istediğiniz zaman öncelikli olarak kayıt oluşturmalısınız. Bu noktada kayıt için karşınıza iki farklı seçenek çıkacaktır. Birincisi Google hesabınızla ya da e-posta adresinizle kayıt işlemini gerçekleştirmenizdir. Kayıt olmanızın ardından size bir e-posta onay maili gönderilecektir. Gönderilen maili onaylamanızın sonrasında Kaggle içerisine giriş yapabilirsiniz.
Kaggle Not Defteri Nasıl Kullanılır?
Pek çok konuda avantaj sağlayan Kaggle, açık veri kümelerine erişiminize, kendi veri kümelerinizi paylaşmanıza yardımcı olmaktadır. Kendi makine öğrenim modellerini oluşturmanızı, eğitmek isteyenler için ise not defteri kullanımını sağlamaktadır. Bunun yanında başkalarına ait olan herkese açık not defterlerini kontrol etmeniz de mümkündür.
Kaggle Notebook seçeneğini kullanabilmeniz için var olan Google hesabınızla ya da e-posta hesabınızla hesap oluşturabilirsiniz. Kaggle hesabınızı oluşturduktan sonra “Code” sayfasına gitmelisiniz. Daha sonrasında kendi not defterinizin yanında başkalarının herkese açık olan not defterini de görebilirsiniz. Kendi not defterinizi oluşturmak adına yapmanız gereken şey, “New Notebook” seçeneğine tıklamaktır. Bu aşamanın ardından birbirine benzeyen komut ve kısa yol seçeneklerinin bulunduğu yeni bir not defteriniz oluşmaktadır.
Kimler Kaggle Kullanır?
Birden fazla öğretici setin, veri setinin bulunmasından ötürü makine öğrenimine meraklı olanlar, Kaggle platformuyla da yakından ilgilenmektedir. Kaggle platformu, makine öğretimi ile ilgili bilgi edinmek, öğrenilenleri uygulayabilmek ve veri bilimcilerle rekabet edebilmek için kullanılan bir yer olarak geçer. Bundan dolayı işlerinde makine öğrenimini kullanmak isteyen veri analistleri için önemlidir. Görev performanslarının artmasını sağlayacak araçlardan biri olarak gösterilmesi de uygundur. Bunun yanında üçüncü sınıf çözümler listesindedir. İşletmelerin ihtiyaç duyduğu çok aşamada Kaggle platformundan faydalanması etkili olmaktadır.
Kaggle Veri Seti Örnekleri Nelerdir?
Yazımızda tanıttığımız Kaggle platformunun birden çok veri seti bulunmaktadır. Veri setlerine örnek vermek gerekirse de bunlar şu gösterilmektedir;
- Titanic Dataset
Kaggle içerisindeki en popüler veri kümelerinden biri olarak geçer. İçerisinde birçok değişken ve kayıt bulunmaktadır. Bundan dolayı başlangıç aşamasında tercih edilen en iyi veri kümesi olarak bilinmektedir. İçerisinde Titanik’te yolculuk yapan kişiler hakkında bilgilere de yer verilmektedir. Örneklendirmek gerekirse veri setinden yola çıkarak birçok veri hakkında bilgi sahibi olabilirsiniz. Veri kümesi içerisinde birden fazla değişken örneği de bulunmaktadır. Bunlar yaş, cinsiyet, medeni durum şeklinde örneklendirilmektedir.
- Meme Kanseri Wisconsin
Genellikle bu alanda daha deneyimli olan veri bilimciler tarafından kullanılan bir veri kümesi olarak tanınmaktadır. Meme Kanseri Wisconsin veri seti, meme kanseri olan hastalarla ilgili bilgiler bulundurmaktadır. Bu setin amacıysa hastaların özelliklerine göre meme kanseri olup olmadıklarıyla ilgili tahminde bulunmaktır.
- CIFAR-100
Makine öğrenimi ile ilgili sahip olduğunuz becerileri geliştirmeniz açısından faydalı olacak bir veri kümesidir. Bu veri kümesi toplamda altı kategoride olan nesnelerin toplam yüz görüntüsünden oluşmaktadır. Bunlar araba, kedi, geyik, gemi ve uçak şeklinde kategorize edilmektedir. Var olan her görüntü 32×32 piksel olarak karşınıza çıkmaktadır. Toplamda üç farklı renk kanalı vardır ve bunlar, kırmızı, yeşil ve mavi şeklinde sıralanmaktadır. CIFAR-100 veri kümesinin amacı, görüntülerin hangi kategoriye ait olduğunu tahmin edebilmektedir.
- MNIST Handwirtten Digits
Kaggle veri kümesi örneklerinden olan MNIST Handwritten Digits, el yazısı rakamlardan oluşan bir oyuncak seti içermektedir. Boyutları 28×28 piksel görüntüler vardır. İçerisindeki test vakalarıysa on binlerce örnekten oluşmaktadır. Bu setin asıl amacı, eğitim ve veri setlerindeki tüm rakamların en doğru şekilde sınıflandırılmasıdır.