Veri setleri, yapay zeka ve makine öğrenimi projelerinde verilerin işlenmesi, analiz edilmesi ve modelleme işlemlerinde kullanılır. Veri setleri, tahmin modelleri oluşturmak, sınıflandırmak, gruplandırmak veya kategorize etmek gibi amaçlar için kullanılabilir. Veri setleri, veri madenciliği, veri analitik, veri görselleştirme, veri yönetimi gibi alanlarda da kullanılabilir. Veri setleri, açık kaynak olarak bulunabileceği gibi, özel olarak oluşturulmuş veya satın alınmış olarak da elde edilebilir.
Veri setleri, veri bilimciler, yapay zeka ve makine öğrenimi uzmanları, araştırmacılar ve girişimciler tarafından kullanılır. Özellikle, veri madenciliği ve makine öğrenimi alanlarında veri setleri çok önemlidir. Veri setleri, modellerin eğitiminde ve test edilmesinde, veri analitik işlemlerinde ve veri görselleştirmelerinde kullanılır. Ayrıca, veri setleri, makine öğrenimi algoritmalarının gerçek dünyadaki problemleri çözmesine yardımcı olur.
Veri setleri, birçok farklı kaynaktan elde edilebilir. Örneğin, açık kaynak veri setleri, Kaggle gibi veri seti paylaşım platformlarından, veri toplama ve web scraping yöntemlerinden veya özel olarak oluşturulmuş veya satın alınmış veri setlerinden elde edilebilir. Ayrıca, veri setleri, veri bilimciler tarafından oluşturulabilir veya mevcut veri setleri üzerinde düzenlemeler yapılabilir.
Veri setleri, belirli bir sırayla düzenlenmiş veri topluluğu dosyalarıdır. Veri setleri, bir diziden veri tabanı tablosuna kadar her şey olabilir. Veri setleri genel olarak CSV veya elektronik tablo formatında, satırlar ve sütunlardan oluşan bir tablo olarak düzenlenen tek bir dosyadır. Bazı durumlarda veri setleri farklı formatta birden çok dosyadan oluşabilir. Veri setleri, yapay zeka ve makine öğrenimi projelerinde verilerin işlenmesi, analiz edilmesi ve modelleme işlemlerinde kullanılır. Veri setleri örnekleri :
- Metin veri setleri: makale, kitap, yazı, gazete vb.
- Sayısal veri setleri: finansal veriler, ekonomik veriler, sağlık verileri, çevrimiçi veriler vb.
- Görsel veri setleri: resimler, video, ses vb.
- Coğrafi veri setleri: haritalar, coğrafi veriler, meteorolojik veriler vb.
- Web veri setleri: web sayfaları, web tarama verileri, sosyal medya verileri vb. Veri setleri ister elde edilir ister oluşturulur her zaman veri bilimciler tarafından işlenir ve temizlenir. Bu sayede veri setleri kullanılabilir hale gelir.
Bu kavramlar veri seti kullanımındaki önemli konulardır. Veri setindeki verilerin işlenmesi, temizlenmesi, analiz edilmesi, özetlenmesi, kullanılması ve güncellenmesi için bu kavramların iyi bilinmesi ve uygulanması gerekir. Ayrıca veri madenciliği, veri analitik, veri görselleştirme, veri yönetimi gibi konular veri seti kullanımındaki önemli konulardır.
Veri seti kavramları, yapay zeka ve makine öğrenimi projelerinde önemli rol oynayan kavramlardandır. Veri setindeki verilerin doğru şekilde kullanılması ve işlenmesi, projenin başarısını etkileyebilir. Bu nedenle, veri seti kavramlarını iyi anlamak ve uygulamak önemlidir.
Sonuç olarak, veri setleri yapay zeka ve makine öğrenimi projelerinde önemli bir rol oynamaktadır. Veri setleri, modellerin eğitiminde ve test edilmesinde, veri analitik işlemlerinde ve veri görselleştirmelerinde kullanılır. Ayrıca, veri setleri, makine öğrenimi algoritmalarının gerçek dünyadaki problemleri çözmesine yardımcı olur.
Makine Öğrenmesi Örnek Veri Setleri
Makine öğreniminde kullanabileceğiniz bazı veri setlerini aşağıda listeleyeceğim.
Iris: Bu veri seti, üç farklı çiçek türünün sepal ve petal boyutlarını içerir. Bu veri seti sınıflandırma ve kümeleme problemlerinde sıklıkla kullanılır.
MNIST: Bu veri seti, el yazısı rakamların görüntülerini içerir. Bu veri seti, görüntü tanıma ve sınıflandırma problemlerinde sıklıkla kullanılır.
Titanic: Bu veri seti, Titanic gemisi faciası sırasında yolcuların demografik bilgilerini, bilet bilgilerini ve hayatta kalma oranlarını içerir. Bu veri seti, sınıflandırma ve tahmin problemlerinde sıklıkla kullanılır.
CIFAR-10: Bu veri seti, 32×32 boyutunda renkli resimleri içerir ve 10 farklı sınıf içerir. Bu veri seti, görüntü tanıma ve sınıflandırma problemlerinde sıklıkla kullanılır.
Lending Club: Bu veri seti, kredi başvurularını ve kredi sonuçlarını içerir. Bu veri seti, sınıflandırma ve tahmin problemlerinde sıklıkla kullanılır.
Boston Housing: Bu veri seti, Boston’daki ev fiyatlarını ve evin yerleşim bölgesi ile ilgili bilgileri içerir. Bu veri seti, tahmin problemlerinde sıklıkla kullanılır.
Wine Quality: Bu veri seti, farklı şarapların özelliklerini ve kalite değerlerini içerir. Bu veri seti, sınıflandırma ve tahmin problemlerinde sıklıkla kullanılır.
UCI Machine Learning Repository: Bu veri seti, birçok farklı alanda veri setlerini içerir, çeşitli problemler için kullanılabilir.
Veri Seti Paylaşım Platformları
Kaggle: Veri bilimciler için popüler bir veri seti paylaşım platformudur. Kaggle, veri bilimcilerin, yapay zeka ve makine öğrenimi uzmanlarının ve araştırmacıların veri setleri, ödevler ve yarışmalar arasında paylaşmalarına ve işbirliği yapmalarına olanak tanır. Kaggle, veri setleri, ödevler ve yarışmalar arasında geniş bir yelpazede mevcuttur. Kaggle veri setleri çeşitli alanlarda kullanılabilir: görüntü tanıma, metin madenciliği, finans, sağlık, sosyal medya vb.
UCI Machine Learning Repository: UCI Makine Öğrenimi Deposu, makine öğrenimi araştırması için veri setleri ve alan teorilerinin bir koleksiyonudur. University of California, Irvine tarafından korunmaktadır ve varolan en eski ve en yaygın kullanılan makine öğrenimi veri deposudur. Depo, doğal dil işleme, bilgisayar görüsü ve bioinformatik gibi geniş bir uygulama alanına yayılan 400’den fazla veri seti içermektedir. Veri setleri, görev ve endüstri alanlarına göre düzenlenir, kullanıcıların ihtiyacı olan verilere kolayca ulaşmalarını sağlar. Depo ayrıca alan teorileri içerir, bu veri setleri ve çözülmesi gereken sorunlar hakkında bilgi sağlar. Depodaki veri setleri ve teoriler ücretsiz olarak kullanılabilir ve çeşitli formatlarda indirilebilir. Bu depo, araştırmacılar, öğrenciler ve uygulama alanındaki uzmanlar tarafından yaygın olarak kullanılmaktadır.
İstanbul Büyükşehir Belediyesi (IBB) Açık Veri Portalı: İstanbul Büyükşehir Belediyesi tarafından sağlanan, şehirle ilgili veri setleri ve bilgi kaynaklarının erişimini sağlayan bir platformdur. Bu platform, veri setlerini arama, indirme ve analiz etme gibi işlemleri yapmaya olanak tanır. Veri setleri, şehirle ilgili konulara yöneliktir, örneğin: nüfus, trafik, sağlık, eğitim ve çevre gibi konularda. Bu veri setleri, hükümet kuruluşları, kamu kuruluşları veya özel şirketler gibi kaynaklardan toplanmıştır.
IBB Açık Veri Portalı, veri setlerini çeşitli formatlarda sunar, örneğin: CSV, JSON veya XML gibi, ve veri setlerine erişmek için API’ler de sağlar. Platform, veri okuryazarlığını teşvik etmek ve şehirle ilgili veri analizleri yapmak için gerekli araçları ve kaynakları sağlar. Bu platform, araştırmacılar, öğrenciler ve genel kullanıcılar için veri setlerini ve bilgi kaynaklarını yayınlamak amacıyla tasarlanmıştır. Veri setleri, kullanıcılar tarafından arama yapılarak, konulara, sağlayıcılara veya dillere göre filtreleme yapılmasına olanak tanır. Ayrıca, veri setleri, haritalar üzerinde görüntülenerek, coğrafi bilgileri içeren veriler için de kullanılabilir. İBB Açık Veri Portalı, veri meraklıları, araştırmacılar, gazeteciler ve diğer ilgilenen kişiler için şehirle ilgili veri analizleri yapmak için gerekli kaynakları sağlar.
Data TUIK(!!!): Bu web sitesi Türkiye İstatistik Kurumu’nun (TÜİK) web sitesidir. Türkiye’nin ekonomisi ve nüfusu ile ilgili çeşitli veriler ve istatistikleri sunmaktadır, böyle GDP, enflasyon, işsizlik ve demografik bilgiler. Web sitesi Türkçe dilindedir.
Fırat Üniversitesi Veri Setleri: İçerisinde trafik işaretlerinden kitaplara kadar bir çok alanda çeşitli veri kümlerinin bulunduğu geniş bir kaynak.
Zillow Prize Home Value: Zillow Prize Home Value, Zillow tarafından düzenlenen bir makine öğrenimi yarışmasıdır. Bu yarışma, katılımcıların ev değerlerini tahmin etmeye çalışmasını içermektedir. Yarışma, Zillow tarafından sağlanan büyük veri setleri kullanılarak gerçekleştirilir. Katılımcılar, bu veri setlerini kullanarak ev değerlerini tahmin etmek için makine öğrenimi modeli eğitirler. Yarışma, katılımcıların kendi yollarını ve yöntemlerini kullanmalarına izin verir, bu da çeşitli tekniklerin ve algoritmaların kullanımını teşvik eder. Yarışma sonunda, en yüksek performans gösteren katılımcılar ödül kazanır. Bu yarışma, makine öğrenimi uzmanlarının ve araştırmacıların ev değerlerini tahmin etme konusunda ileri teknikleri keşfetmelerine ve geliştirmelerine olanak tanır.
Data.worldbank.org: Dünya Bankası tarafından sağlanan bir veri portalıdır. Bu web sitesinde, Dünya Bankası tarafından toplanan ve yayınlanan birçok farklı türde ekonomik ve sosyal veriye erişebilirsiniz. Bu veriler arasında, ülkelerin ekonomik durumları, nüfus, sağlık, çevre, eğitim ve diğer konularla ilgili veriler bulunur. Veriler, farklı düzeylerde ve formatlarda sunulur ve indirilebilir veya API aracılığıyla erişilebilir. Bu veriler, araştırmacılar, akademisyenler ve hükümetler gibi farklı taraflar tarafından kullanılabilir.
AWS Open Data Registry: Amazon Web Services (AWS) tarafından sağlanan bir veri kaynakları listesidir. Bu kaynaklar, açık veri kullanıcılarına, veri kuruluşlarından ve hükümetlerden, veri sağlayıcılara kadar geniş bir yelpazede farklı kaynaklardan veriye erişim sağlar. AWS Open Data Registry, veri kullanıcılarının verileri arama, filtreleme ve indirme işlemlerini yapmalarına olanak tanır. Bu veriler arasında geniş bir yelpaze bulunur, örneğin: meteorolojik veriler, genom verileri, sosyal medya verileri, nüfus verileri vb. Bu veriler, AWS üzerinde barındırılır ve S3, Athena, Glue gibi AWS servisleri kullanılarak erişilebilir.
Data.world: Data.world, veri işbirliği platformudur. Kullanıcıların veri setlerini bulmalarına, kullanmalarına ve paylaşmalarına olanak sağlar. Platform, veri keşfi için merkezi bir konuma sahiptir ve kullanıcıların diğer veri meraklıları, uzmanlar ve kuruluşlarla bağlantı kurmalarına olanak tanır. Kullanıcılar, veri setlerini arayabilir, topluluklara katılabilir ve projelerde işbirliği yapabilir. Platform ayrıca veri hazırlama, analiz ve görselleştirme araçları sunar, bu da kullanıcıların bulabildiği veri setleriyle çalışmasını kolaylaştırır. Data.world ayrıca veri kaynak, veri sözlüğü ve veri kalitesi gibi özellikler sunar bu özellikler kullanıcıların verileri daha iyi anlamalarını sağlar. Platform, veri bilimcileri, araştırmacılar, gazeteciler ve iş analistleri gibi geniş bir kullanıcı yelpazesi için tasarlanmıştır. Platformda yer alan veri setleri, hükümetler, sivil toplum kuruluşları ve işletmeler gibi çeşitli kuruluşlar tarafından katkıda bulunulur.
Microsoft Research Open Data: Microsoft Research Open Data, Microsoft Research tarafından üretilen çeşitli veri setleri ve kaynakların erişimini sağlayan bir platformdur. Platform, araştırmacılar, öğrenciler ve genel kullanıcılar için veri setleri ve kaynakları yayınlamaktadır ve bunlar sadece ticari olmayan amaçlar için kullanılabilir. Veri setleri, doğal dil işleme, bilgisayar görüsü, makine öğrenimi gibi geniş bir konu yelpazesini kapsamaktadır. Platform ayrıca veri setleriyle çalışmak için kullanıcıların ihtiyacı olan araçları ve kaynakları içerir, örneğin: API, yazılım ve öğreticiler. Platformda yer alan veri setleri, Microsoft Research bilim adamları ve mühendisleri tarafından sağlanmaktadır ve açık veri lisansları altında kullanılabilir.
Microsoft Research Open Data’nın amacı, veri setleri ve kaynakların araştırma topluluğuna kolayca erişilebilir hale getirilmesiyle açık bilimsel araştırma ve işbirliğini teşvik etmektir. Platform, araştırmacıların Microsoft araştırmacılarının çalışmalarını yeniden üretebilmelerine ve genişletmelerine olanak tanır ve yeni bilgi ve uygulamaların keşfedilmesine olanak tanır. Platform ayrıca, veri okuryazarlığını teşvik etmek ve yüksek kaliteli veri setleri ve kaynaklarla erişim sağlamak suretiyle yeni veri bilimcilerinin yetişmesini sağlamak için amaçlarını taşımaktadır.
Google Dataset Search: Google Dataset Search, Google tarafından sunulan bir veri seti arama hizmetidir. Bu hizmet, kullanıcıların veri setlerini aramalarına ve bulmalarına olanak tanır. Kullanıcılar, veri setlerini arama sorguları kullanarak, veri setlerinin konusuna, sağlayıcısına, dillerine ve diğer özelliklere göre filtreleyebilirler. Google Dataset Search, web’de yayınlanmış veri setlerini tarar ve veri setlerine ait metadatayı indeksler. Veri setleri, sağlayıcılar tarafından belirli bir biçimde yayınlanmış olmalıdır ki Google Dataset Search tarayıcıları tarafından okunabilsin. Bu hizmet, araştırmacılar, veri bilimciler, gazeteciler ve diğer veri meraklıları için veri setlerini kolayca bulmalarına ve kullanmalarına olanak tanır.
Academic Torrents: Academic Torrents, bir veri paylaşım platformudur. Platform, araştırmacılar, öğrenciler ve diğer akademik kullanıcılar için büyük veri setlerini ve dosyaları paylaşmalarına olanak tanır. Platform, BitTorrent protokolünü kullanarak veri setlerini ve dosyaları paylaşır ve bu sayede kullanıcılar, veri setlerini ve dosyaları hızlı ve güvenli bir şekilde indirebilirler. Academic Torrents, veri setlerini ve dosyaları kategorize eder ve arama yapmayı kolaylaştırır. Platform, açık erişim ve bilimsel araştırmalar için veri paylaşımını teşvik etmek amacıyla tasarlanmıştır. Academic Torrents, çeşitli veri setleri sunar, örneğin: genom verileri, meteorolojik veriler, sosyal medya verileri, nüfus verileri vb.
Stanford Large Network Dataset: Veri setleri gibi büyük ağ veri setlerinin bir koleksiyonudur ve araştırma amaçlı kullanım için mevcuttur. SNAP websitesi, veri setlerine erişimi sağlar ve her ağda düğüm ve kenar sayısı, veri kaynağı ve verinin mevcut olduğu biçim gibi bilgileri içerir. Veri seti koleksiyonu, Stanford Üniversitesi’ndeki Stanford Network Analysis Project (SNAP) tarafından korunur ve ağ bilimi, sosyal ağ analizi ve ilgili alanlarla ilgili araştırmaları desteklemek için tasarlanmıştır. Koleksiyon içinde yer alan bazı veri setleri şunlardır:
- Facebook sosyal ağı
- Wikipedia web ağı
- Epinions web ağı
- Google+ sosyal ağı
- Amazon ürün birlikte satın alma ağı
IMF DataSet (International Monetary Fund DataSet): International Monetary Fund (IMF) tarafından sağlanan, ekonomi, finans ve para politikası gibi konularla ilgili veri setleri koleksiyonudur. IMF DataSet, ülkelerin ekonomik durumlarını, büyüme oranlarını, enflasyon oranlarını, para arzını, borç yükünü ve diğer ekonomik göstergeleri içermektedir. Veri setleri, ülkeler için yıllara göre, bölgelere göre veya konulara göre filtreleme yapılmasına olanak tanır. IMF veri setleri, araştırmacılar, öğrenciler, analistler ve diğer ilgilenen kişiler tarafından ekonometrik analiz, ekonomik modelleme veya finansal tahmin yapmak gibi amaçlar için kullanılabilir. IMF DataSet ayrıca, birçok ülkenin ekonomik durumlarını karşılaştırmak için de kullanılabilir. Veri setleri IMF websitesinde ücretsiz olarak erişilebilir.
Awesome Public Datasets Collection: Veri bilimi, makine öğrenimi ve araştırma projeleri için kullanılabilecek olan genel olarak erişilebilir veri setlerinin bir listesidir. Bu, bir topluluk tarafından yürütülen bir GitHub deposudur ve finans, sağlık, spor, sosyal medya gibi farklı konulara yönelik çeşitli veri setleri içermektedir. Veri setleri, hükümet kuruluşları, sivil toplum kuruluşları ve araştırma kurumları gibi farklı kaynaklardan toplanmıştır. Her veri seti, açıklama, veri kaynağına bağlantı ve verinin biçimi ve boyutu hakkında bilgi içermektedir.
Veri setleri iyi organize edilmiş ve kullanımı kolaydır, farklı kategoriler, etiketler ve anahtar kelimelerle bölünmüştür, bu sayede kullanıcılar hızlı bir şekilde ihtiyaçları olan veri setini bulabilirler. Liste sürekli olarak yeni veri setleri ve konular ile güncellenir, bu nedenle veri bilimcileri, araştırmacılar, öğrenciler ve veri ile çalışmak isteyen herkes için yararlı bir kaynaktır. Bu koleksiyon, trendleri analiz etmek, modeller oluşturmak, görselleştirmeler yapmak gibi çeşitli amaçlar için kullanılabilir. Veri setleri, CSV, JSON ve SQL gibi çeşitli biçimlerde mevcuttur.
Computer Vision Datasets: Bilgisayar görüsü alanında kullanılabilecek olan veri setleri koleksiyonudur. Bu veri setleri, görüntüler, video veya nesneler içeren verileri içerebilir ve genellikle eğitim ve test amaçlı kullanılır. Bu veri setleri, sınıflandırma, tanıma, takip, segmentasyon gibi bilgisayar görüsü algoritmalarının eğitim ve test edilmesi için kullanılır.
Computer Vision veri setleri, çeşitli kaynaklardan toplanmıştır, örneğin: hükümet kuruluşları, araştırma kurumları veya özel şirketler. Veri setleri, çeşitli formatlarda sunulabilir, örneğin: resim, video veya nesne verisi olarak. Bu veri setleri, genellikle açık erişimli ve ücretsiz olarak erişilebilir. Örneğin: COCO, ImageNet, PASCAL VOC gibi popüler veri setleri computer vision alanında kullanılmaktadır.
Data.gov: Bu platform, ABD hükümetinin açık veri setlerini içerir.
Data.gov.uk: Bu platform, İngiltere hükümetinin açık veri setlerini içerir.
Bu platformlar, Kaggle gibi veri setleri, ödevler ve yarışmalar arasında paylaşma ve işbirliği yapma olanağı sunarlar.
Bu veri setleri sadece birkaç örnektir ve makine öğrenimi alanında mevcut olan birçok veri seti mevcuttur. Önemli olan veri setinin seçiminde problemle ilgili olarak uygun olmasıdır.
Add Comment