Bekendstelling van TensorFlow -datastelle

Blog

Bekendstelling van TensorFlow -datastelle

Openbare datastelle stimuleer die raket rakende masjienleer ( h/t Andrew Ng ), maar dit is nog steeds te moeilik om die datastelle eenvoudig in u pyplyn vir masjienleer te kry. Elke navorser gaan deur die pyn om eenmalige skrifte te skryf om elke datastel waarmee hulle werk, af te laai en voor te berei, wat almal verskillende bronformate en kompleksiteite het. Nie meer nie.



Ons stel vandag graag TensorFlow -datastelle bekend ( GitHub ) wat openbare navorsingsdatastelle blootstel aan | _+_ | en as NumPy -skikkings. Dit doen al die moeite om die brondata te gaan haal en in 'n algemene formaat op die skyf voor te berei, en dit gebruik die | _+_ | om hoëprestasie-insetpypleidings te bou, wat TensorFlow 2.0-gereed is en saam met | _+_ | modelle. Ons begin met 29 gewilde navorsingsdatastelle soos MNIST, Street View -huisnommers, die 1 biljoen woordtaalmodel -maatstaf en die databasisstel vir groot filmresensies, en sal in die komende maande meer byvoeg; ons hoop dat u daarby aansluit en voeg self 'n datastel by .

tl; dr

[tf.data.Datasets]([https://www.tensorflow.org/api_docs/python/tf/data/Dataset)](https://www.tensorflow.org/api_docs/python/tf/data/Dataset) 'https://www.tensorflow.org/api_docs/python/tf/data/Dataset)')

Probeer | _+_ | uit in 'n Colab notaboek .



| _+_ | en | _+_ |

Elke dataset word blootgestel as 'n DatasetBuilder, wat weet:

  • Waar om die data af te laai en hoe om dit te onttrek en dit in 'n standaardformaat te skryf (| _+_ |).
  • Hoe om dit vanaf die skyf te laai (| _+_ |).
  • En al die inligting oor die datastel, soos die name, tipes en vorms van al die funksies, die aantal rekords in elke verdeling, die bron -URL's, verwysing vir die datastel of gepaardgaande papier, ens. (| _+_ |) .

U kan enige van die DatasetBuilders direk instansieer of dit per string haal met | _+_ |:



[tf.data API]([https://www.tensorflow.org/guide/datasets)](https://www.tensorflow.org/guide/datasets) 'https://www.tensorflow.org/guide/datasets)')

| _+_ | aanvaar 'n | _+_ | argument wat u voorbeelde in plaas van een voorbeeld op 'n slag sal gee. Vir klein datastelle wat in die geheue pas, kan u | _+_ | om die hele datastel tegelyk as 'n | _+_ |. Almal | _+_ | kan maklik omgeskakel word na herhalings van NumPy -skikkings met behulp van | _+_ |.

U kan al die bogenoemde doen met | _+_ |, wat die DatasetBuilder op naam, oproepe | _+_ | en oproepe | _+_ |.

tf.keras

U kan ook maklik die | _+_ | voorwerp van | _+_ | deur te gaan | _+_ |. Sien die API -dokumentasie vir al die opsies.

Datastelweergawe

Elke dataset is weergegee (| _+_ |), sodat u verseker kan wees dat die data nie onder u verander nie en dat die resultate reproduceerbaar is. Ons waarborg tans dat die weergawe verhoog sal word as die data verander.

Let daarop dat hoewel ons waarborg dat die datawaardes en splitsings identies is, gegewe dieselfde weergawe, ons nie tans die ordening van rekords vir dieselfde weergawe waarborg nie.

Datastelkonfigurasie

Datastelle met verskillende variante word gekonfigureer met die naam BuilderConfigs. Byvoorbeeld, die groot filmoorsigdatastel (| _+_ |) kan verskillende koderings vir die invoerteks hê (byvoorbeeld gewone teks, of 'n karakterkodering, of 'n subwoordkodering). Die ingeboude konfigurasies word gelys met die dataset-dokumentasie en kan met 'n string aangespreek word, of u kan u eie konfigurasie deurgee.

# Install: pip install tensorflow-datasets import tensorflow_datasets as tfds mnist_data = tfds.load('mnist') mnist_train, mnist_test = mnist_data['train'], mnist_data['test'] assert isinstance(mnist_train, tf.data.Dataset)

Sien die afdeling oor die opset van die datastel in ons dokumentasie oor die toevoeging van 'n datastel.

reageer-inheemse-kalender-plukker

Teksdatastelle en woordeskat

Teksdatastelle kan dikwels pynlik wees om mee te werk as gevolg van verskillende koderinge en woordeskatlêers. | _+_ | maak dit baie makliker. Dit bevat baie tekstake en bevat drie soorte TextEncoders, wat almal Unicode ondersteun:

  • Waar om die data af te laai en hoe om dit te onttrek en dit in 'n standaardformaat te skryf (| _+_ |).
  • Hoe om dit vanaf die skyf te laai (| _+_ |).
  • En al die inligting oor die datastel, soos die name, tipes en vorms van al die funksies, die aantal rekords in elke verdeling, die bron -URL's, verwysing vir die datastel of gepaardgaande papier, ens. (| _+_ |) .

Die encoders, tesame met hul woordeskatgroottes, is verkrygbaar via | _+_ |:

tfds

Beide TensorFlow- en TensorFlow -datastelle werk daaraan om teksondersteuning in die toekoms nog verder te verbeter.

Aan die gang kom

Ons dokumentasie webwerf is die beste plek om | _+_ |. Hier is 'n paar ekstra wenke om aan die gang te kom:

  • Waar om die data af te laai en hoe om dit te onttrek en dit in 'n standaardformaat te skryf (| _+_ |).
  • Hoe om dit vanaf die skyf te laai (| _+_ |).
  • En al die inligting oor die datastel, soos die name, tipes en vorms van al die funksies, die aantal rekords in elke verdeling, die bron -URL's, verwysing vir die datastel of gepaardgaande papier, ens. (| _+_ |) .

Ons verwag dat ons in die komende maande datastelle sal byvoeg, en ons hoop dat die gemeenskap daarby sal inskakel GitHub -uitgawe om 'n datastel aan te vra, stem oor watter datastelle vervolgens bygevoeg moet word, implementering bespreek of hulp vra. En trek versoeke baie welkom! Voeg 'n gewilde datastel by om by te dra tot die gemeenskap, of as u u eie data het, dra dit by tot TFDS om u data bekend te maak!

Nou is hierdie data 'n maklike, gelukkige modellering!

Erkennings

Ons wil Stefan Webb van Oxford bedank dat ons die | _+_ | kon gebruik PyPI naam. Dankie Stefan!

Ons wil ook dankie sê aan Lukasz Kaiser en die Tensor2Tensor projek vir die inspirasie en begeleiding van tensorvloei/datastelle. Dankie Lukasz! T2T migreer binnekort na tensorflow/datastelle.

Oorspronklik gepubliseer deur TensorFlow by https://medium.com/tensorflow

Leer meer

Toegepaste diep leer met PyTorch - volledige kursus

Masjienleer in Node.js met TensorFlow.js

jp morgan chase virtuele internskap

Ons stel TensorFlow.js bekend: Masjienleer in Javascript

'N Volledige deurloop van masjienleerprojek in Python

'N Geïllustreerde gids vir Kubernetes -netwerk

Inleiding tot PyTorch en masjienleer

Volledige gids vir TensorFlow vir diep leer met Python

Masjienleer met TensorFlow + sakekas

Masjienleer en Tensorflow - Google Cloud -benadering

#tensorflow #python #numpy #databasis

medium.com

Bekendstelling van TensorFlow -datastelle

Bekendstelling van TensorFlow -datastelle