Aracılığıyla paylaş


opendatasets Paket

Azure Açık Veri Kümelerini veri çerçeveleri olarak kullanma ve müşteri verilerini zenginleştirme işlevleri içerir.

Azure Açık Veri Kümeleri, daha doğru modeller için makine öğrenmesi çözümlerine senaryoya özgü özellikler eklemek için kullanabileceğiniz genel veri kümeleridir. Bu genel veri kümelerini, filtrelerin uygulandığı Spark ve pandas veri çerçevelerine dönüştürebilirsiniz. Bazı veri kümelerinde, genel verileri verilerinizle birleştirmek için zenginleştirici kullanabilirsiniz. Örneğin, verilerinizi hava durumu verileriyle boylam, enlem veya posta kodu ile zamana göre birleştirebilirsiniz.

Azure Açık Veri Kümelerine makine öğrenmesi modellerini eğitip tahmine dayalı çözümleri zenginleştirmenize yardımcı olan hava durumu, nüfus sayımı, tatiller, kamu güvenliği ve konum için genel etki alanı verileri dahildir. Açık Veri Kümeleri Microsoft Azure'da buluttadır ve Azure Machine Learning ile tümleşiktir. Azure Açık Veri Kümeleri ile çalışma hakkında daha fazla bilgi için bkz. Azure Açık Veri Kümeleri ile veri kümeleri oluşturma.

Azure Açık Veri Kümeleri hakkında genel bilgi için bkz. Azure Açık Veri Kümeleri Belgeleri.

Paketler

accessories

Lat/long, zipcode ve time gibi verilerdeki sütun türlerini tanımlamaya yardımcı olan işlevler içerir.

aggregators

Birleştirilen verilerin nasıl toplanmış olduğunu tanımlamaya yönelik işlevler içerir.

Toplayıcılar, iki veri kümesinden veri birleştirme sonucunda gerçekleştirilebilecek işlemleri tanımlar. Örneğin, içindeki enricherssınıflardan birini kullandığınızda, işlemin bir parçası olarak bir toplayıcı belirtebilirsiniz. Toplama gerekmiyorsa kullanın AggregatorAll.

data

publicholidays modülündeki veri kaynakları için init dosyasını içerir.

dataaccess

Blob dosya erişim yöntemlerini sağlayan işlevleri içerir.

sınıfı gibi ChicagoSafety paketten opendatasets bir sınıf kullandığınızda, bu paketteki dataaccess sınıfları ve işlevleri dahili olarak kullanılır. Genel olarak, dataaccess paketindeki işlevselliği doğrudan kullanmanız gerekmez.

enrichers

İki veri kümesindeki verileri zenginleştirmeye ve birleştirmeye yönelik işlevler içerir.

Zenginleştiriciler genellikle farklı kaynaklardan gelen verileri birleştirir. Özellikle zenginleştiriciler, Verilerinizi (müşteri verileri) Azure Açık Veri Kümelerindeki veya diğer genel veri kümelerindeki verilerle birleştirmenizi sağlar.

granularities

Zenginleştiriciler tarafından kullanılan zaman ve uzaklık ölçülerini tanımlayan işlevselliği içerir.

Ayrıntı düzeyleri, verileri zenginleştirirken (birleştirirken) kullanılan enrichers zaman veya mesafe ölçüleridir. Saatlik veya günlük gibi zaman taneciklikleri ve en yakın mesafe gibi konum tanecikliği vardır.

selectors

Genel veri kümesindeki verilerle bir müşteri veri kümesinden veri seçme ve birleştirme işlevleri içerir.

Seçiciler, zaman ve mesafe ölçülerine göre verilerinizi genel veri kümeleriyle zenginleştirmenizi sağlayan mantığı tanımlar. Örneğin, bir seçici ile en yakın konuma göre veya aynı zaman ayrıntı düzeyine yuvarlayarak verilerinizle birleştirebileceğiniz genel verileri bulabilirsiniz.

Paketteki enrichers sınıflardan biriyle çalışırken seçicileri belirtin.

Modül

environ

Azure Açık Veri Kümelerinin kullanıldığı çalışma zamanı ortam sınıflarını tanımlar.

Bu modüldeki sınıflar, Azure Açık Veri Kümeleri işlevselliğinin farklı ortamlar için iyileştirildiğinden emin olur. Genel olarak, bu ortam sınıflarının örneğini oluşturmanız veya uygulama konusunda endişelenmeniz gerekmez. Bunun yerine, ortamı döndürmek için modül işlevini kullanın get_environ .

Sınıflar

BingCOVID19Data

Bing COVID-19 veri kümesini temsil eder.

Bu veri kümeleri, Dünya Sağlık Örgütü (WHO), Hastalık Kontrol ve Önleme Merkezleri (CDC), ulusal ve eyalet kamu sağlığı departmanları, BNO News, 7/24 Wall St. ve Wikipedia dahil olmak üzere birden çok güvenilir, güvenilir kaynaktan Bing COVID-19 verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Bing COVID-19 Verileri .

Filtreleme alanlarını başlatın.

BostonSafety

Boston Safety genel veri kümesini temsil eder.

Bu veri kümesi, Boston şehrine bildirilen 311 çağrı içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Boston Güvenlik Verileri .

Filtreleme alanlarını başlatın.

COVID19OpenResearch

COVID-19 Açık Araştırma Veri Kümesini temsil eder.

Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda COVID-19 Açık Araştırma Veri Kümesi'ne bakın.

COVIDTrackingProject

COVID İzleme Projesi veri kümesini temsil eder.

Bu veri kümeleri, her ABD eyaleti ve bölgesinden testler, onaylanmış vakalar, hastaneye kaldırılanlar ve hasta sonuçlarıyla ilgili en son sayıları sağlayan COVID İzleme Projesi veri kümesini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki COVID İzleme Projesi veri kümesine bakın.

Filtreleme alanlarını başlatın.

ChicagoSafety

Chicago Safety genel veri kümesini temsil eder.

Bu veri kümesi geçmiş temizlik kodu şikayetleri, bildirilen çukurlar ve sokak ışığı sorunları dahil olmak üzere Chicago şehrinden 311 hizmet isteği içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Chicago Güvenlik Verileri .

Filtreleme alanlarını başlatın.

CitySafety

Şehir güvenlik sınıfı - Bu, her bir şehir tarafından devralınabilen bir üst sınıftır.

Filtreleme alanlarını başlatın.

Diabetes

Örnek Diyabet genel veri kümesini temsil eder.

10 özelliğe sahip 442 örnek içeren Diabetes (Diyabet) adlı veri kümesi, makine öğrenmesi algoritmalarıyla çalışmaya başlamak için idealdir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Örnek: Diyabet .

EcdcCOVIDCases

Avrupa Hastalık Önleme ve Kontrol Merkezi (ECDC) Covid-19 Vakalarını temsil eder.

Bu veri kümeleri, Avrupa Hastalık Önleme ve Kontrol Merkezi'nden (ECDC) içerir. Her satır/giriş, gün başına ve ülke/bölge başına bildirilen yeni servis talebi sayısını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki Avrupa Hastalık Önleme ve Denetim Merkezi (ECDC) Covid-19 Vakaları bölümüne bakın.

Filtreleme alanlarını başlatın.

MNIST

El yazısı rakamlardan oluşan MNIST veri kümesini temsil eder.

El yazısı rakamlardan oluşan MNIST veritabanı, 60.000 örnekli bir eğitim kümesi ve 10.000 örnekli bir test kümesi içerir. Rakamlar normal boyuttadır ve sabit boyutlu bir görüntüde ortalanmıştır. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki el yazısı rakamlardan oluşan MNIST veritabanı .

MNIST veri kümesini kullanma örneği için Azure Machine Learning kullanarak MNIST verileri ve scikit-learn ile görüntü sınıflandırma modellerini eğitma öğreticisine bakın.

NoParameterOpenDatasetBase

ABD işçi tabanı sınıfı.

Başlatmak.

NoaaGfsWeather

Ulusal Okyanus ve Atmosfer Dairesi (NOAA) Küresel Tahmin Sistemi (GFS) veri kümesini temsil eder.

Bu veri kümesi, Ulusal Okyanus ve Atmosfer Dairesi'nden (NOAA) Küresel Tahmin Sistemi (GFS) tarafından üretilen 15 günlük ABD saatlik hava durumu tahmin verilerini (örn. sıcaklık, yağış, rüzgar) içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki NOAA Genel Tahmin Sistemi'ne bakın.

Filtreleme alanlarını başlatın.

NoaaIsdWeather

Ulusal Okyanus ve Atmosfer Yönetimi (NOAA) Tümleşik Yüzey Veri Kümesini (ISD) temsil eder.

Bu veri kümesi, Ulusal Okyanus ve Atmosfer Dairesi'nden (NOAA) alınan dünya çapında saatlik hava durumu geçmişi verilerini (örneğin, sıcaklık, yağış, rüzgar) içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda NOAA Tümleşik Surface Verileri .

Filtreleme alanlarını başlatın.

NycSafety

New York City Safety genel veri kümesini temsil eder.

Bu veri kümesi 2010’dan günümüze kadar tüm New York City 311 hizmet aramalarını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda New York Şehir Güvenliği Verileri .

Filtreleme alanlarını başlatın.

NycTaxiBase

New York Taxi sınıfı - Bu devralınabilecek bir üst sınıftır.

Filtreleme alanlarını başlatın.

NycTlcFhv

NYC Taxi & Limousine Commission genel veri kümesini temsil eder.

Bu veri kümesi For-Hire Vechicle (FHV) seyahat kayıtlarını içerir. Bu kayıtlar, gönderim temel lisans numarasını ve teslim alma tarihini, saatini ve taksi bölgesi konum kimliğini (aşağıdaki şekil dosyası) yakalayan alanları içerir. Bu kayıtlar, merkezler tarafından gönderilen FHV Yolculuk Kayıtlarından oluşturulur. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) gezi kayıtları konusuna bakın.

Filtreleme alanlarını başlatın.

NycTlcGreen

NYC Taxi & Limousine Commission yeşil taksi yolculuğu genel veri kümesini temsil eder.

Yeşil taksi yolculuk kayıtları, yolcu alma ve bırakma tarihlerini/saatlerini, yolcu alma ve bırakma konumlarını, yolculuk mesafelerini, listeli tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayılarını yakalayan alanları içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - yeşil taksi yolculuğu kayıtları .

NycTlcGreen sınıfını kullanma örneği için taksi ücretlerini tahmin etmek için otomatik makine öğrenmesini kullanma öğreticisine bakın.

Filtreleme alanlarını başlatın.

NycTlcYellow

NYC Taxi & Limousine Commission sarı taksi yolculuğu genel veri kümesini temsil eder.

Sarı taksi yolculuk kayıtları yolcu alma ve bırakma tarihlerini/saatlerini, yolcu alma ve bırakma konumlarını, yolculuk mesafelerini, ayrıntılı tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayılarını yakalayan alanları içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - sarı taksi yolculuğu kayıtları .

Filtreleme alanlarını başlatın.

OjSalesSimulated

Örnek Portakal Suyu Satışları Simülasyon veri kümesini temsil eder.

Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Örnek: OJ Satış Simülasyon Verileri .

PublicHolidays

Resmi Tatiller genel veri kümesini temsil eder.

Bu veri kümeleri, 1970 ile 2099 arasında 38 ülke veya bölgeyi kapsayan PyPI tatil paketi ve Wikipedia'dan alınan dünya çapında resmi tatil verilerini içerir. Her satır belirli bir tarih, ülke veya bölge için tatil bilgilerini gösterir ve çoğu insanın ücretli izinde olup olmadığını belirtir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Resmi Tatiller .

Filtreleme alanlarını başlatın.

PublicHolidaysOffline

Resmi Tatiller Çevrimdışı genel veri kümesini temsil eder.

Satırların açıklaması için Microsoft Azure Açık Veri Kümeleri kataloğundaki Resmi Tatiller'e bakın.

Filtreleme alanlarını başlatın.

SampleDatasetBase

Örnek Veri Kümesi Temel sınıfını temsil eder.

SanFranciscoSafety

San Francisco Safety genel veri kümesini temsil eder.

Bu veri kümesi, San Francisco'da hizmet için itfaiye çağrıları ve 311 servis talebi içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda San Francisco Güvenlik Verileri .

Filtreleme alanlarını başlatın.

SeattleSafety

Seattle Safety genel veri kümesini temsil eder.

Bu veri kümesi Seattle İtfaiyesi 911 dağıtım verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Seattle Güvenlik Verileri .

Filtreleme alanlarını başlatın.

UsLaborCPI

ABD Tüketici Fiyat Endeksi genel veri kümesini temsil eder.

Tüketici Fiyat Endeksi (CPI), şehirli tüketicilerin tüketici ürün ve hizmetlerinden oluşan bir market arabası için ödediği fiyatta zaman içinde meydana gelen değişikliğin ölçümüdür. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Tüketici Fiyat Dizini .

Başlatmak.

UsLaborEHENational

ABD Ulusal Çalışma Saatleri ve Kazançlar genel veri kümesini temsil eder.

Bu veri kümesi, Birleşik Devletler'daki bordrolarda çalışanlara ilişkin sektör tahminlerini, çalışma dışı çalışma saatlerini ve kazançlarını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Ulusal Çalışma Saatleri ve Kazanç konusuna bakın.

Başlatmak.

UsLaborEHEState

ABD State Employment Hours and Earnings genel veri kümesini temsil eder.

Bu veri kümesi, Birleşik Devletler'daki bordrolarda çalışanlara ilişkin sektör tahminlerini, çalışma dışı çalışma saatlerini ve kazançlarını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Durum Çalışma Saatleri ve Kazanç bölümüne bakın.

Başlatmak.

UsLaborLAUS

ABD Yerel Alan İşsizlik İstatistikleri genel veri kümesini temsil eder.

Bu veri kümesi sayım bölgeleri ve bölümleri, eyaletler, ilçeler, metropol alanları ve Birleşik Devletler birçok şehir için aylık ve yıllık istihdam, işsizlik ve iş gücü verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki ABD Yerel Alan İşsizlik İstatistikleri bölümüne bakın.

Başlatmak.

UsLaborLFS

ABD İş Gücü İstatistikleri genel veri kümesini temsil eder.

Bu veri kümesi, Birleşik Devletler iş gücü katılım oranları ve yaşa, cinsiyete, ırka ve etnik gruplara göre sivil kimliksiz nüfus dahil olmak üzere iş gücüyle ilgili verileri içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki ABD İş Gücü İstatistikleri .

Başlatmak.

UsLaborPPICommodity

ABD Üretici Fiyat Endeksi (PPI) - Emtia genel veri kümesini temsil eder.

Üretici Fiyat Endeksi (ÜFE), yurt içi üreticilerin çıktıları için aldığı satış fiyatlarında zaman içinde görülen ortalama değişikliğin ölçüsüdür. ÜFE’ye dahil edilen fiyatlar, kapsama alınan ürün ve hizmetlerin ilk ticari işlemine aittir. Bu veri kümesi, tek tek ürünler ve aylık olarak yayımlanan ürün grupları için PPI'ler içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki US Producer Price Index - Emtialar .

Başlatmak.

UsLaborPPIIndustry

ABD Üretici Fiyat Endeksi 'ni (PPI) temsil eder - Sektör genel veri kümesi.

Üretici Fiyat Endeksi (ÜFE), yurt içi üreticilerin çıktıları için aldığı satış fiyatlarında zaman içinde görülen ortalama değişikliğin ölçüsüdür. ÜFE’ye dahil edilen fiyatlar, kapsama alınan ürün ve hizmetlerin ilk ticari işlemine aittir. Bu veri kümesi, ABD ekonomisinin çok çeşitli sektörlerine yönelik PPI'ler içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Üretici Fiyat Dizini - Sektör .

Azure Açık Veri Kümeleri hakkında genel bilgi için bkz. Azure Açık Veri Kümeleri Belgeleri.

Başlatmak.

UsPopulationCounty

eyalete göre ABD Popülasyonu genel veri kümesini temsil eder.

Bu veri kümesi, 2000 ve 2010 Decennial Census kaynaklarından elde edilen her ABD ilçesi için cinsiyete ve ırka göre ABD nüfusunu içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda abd nüfusa göre ilçeye göre bölümüne bakın.

Başlatmak.

UsPopulationZip

Posta Koduna göre ABD Popülasyonu genel veri kümesini temsil eder.

Bu veri kümesi, 2010 Decennial Census kaynağı olan her ABD posta kodu için cinsiyete ve ırka göre ABD nüfusunu içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki POSTA Koduna Göre ABD Popülasyonu bölümüne bakın.

Başlatmak.