FACEBOOK BESCHLEUNIGT DAS TRAINING FÜR VISUELLE ERKENNUNGSMODELLE - TECHCRUNCH - SOZIALEN MEDIEN - 2018

Anonim

Jede Minute, die mit dem Training eines Deep-Learning-Modells verbracht wird, ist eine Minute, in der man nicht etwas anderes tut, und in der heutigen schnelllebigen Forschungswelt ist diese Minute viel wert. Facebook hat heute Morgen eine Arbeit veröffentlicht, in der er seine persönliche Herangehensweise an dieses Problem beschreibt. Das Unternehmen sagt, dass es gelungen ist, die Trainingszeit eines ResNet-50 Deep Learning-Modells auf ImageNet von 29 Stunden auf eins zu reduzieren.

Facebook schaffte es, die Trainingszeit so drastisch zu reduzieren, indem das Training in größeren "Minibatches" auf eine größere Anzahl von GPUs verteilt wurde. Im vorherigen Benchmark-Fall wurden Stapel von 256 Bildern auf acht GPUs verteilt. Die heutige Arbeit umfasst jedoch Batchgrößen von 8.192 Bildern, die auf 256 GPUs verteilt sind.

Die meisten Menschen haben keine 256 GPUs herumliegen, aber große Tech-Unternehmen und finanzstarke Forschungsgruppen tun es. Es ist eine große Sache, das Training auf so viele GPUs zu skalieren, dass die Trainingszeit verkürzt wird, ohne dass die Genauigkeit drastisch abnimmt.

Das Team verlangsamte die Lernraten zu Beginn des Trainingsprozesses, um einige der Schwierigkeiten zu überwinden, die große Losgrößen bisher unmöglich machten. Ohne sich im Detail zu verlieren, wird der stochastische Gradientenabfall zum Training des ResNet-50-Modells verwendet.

Eine der Schlüsselvariablen beim stochastischen Gradientenabstieg ist die Lernrate - der Grad, mit dem sich die Gewichte während des Trainingsprozesses ändern. Die Art und Weise, wie sich diese Variable als Minibatch-Größe ändert, ist der Schlüssel zu einer effektiven Optimierung.

Machine-Learning-Entwickler verbringen ihre Tage mit Kompromissen. Eine höhere Genauigkeit erfordert häufig größere Datensätze, die zusätzliche Trainingszeit erfordern und Ressourcen berechnen. In diesem Sinne wäre es möglich, Genauigkeit oder Geschwindigkeit zu priorisieren, um eindrucksvollere Ergebnisse zu erzielen, aber ein Modell mit schlechter Genauigkeit in 20 Sekunden zu trainieren, ist nicht sehr wertvoll.

Im Gegensatz zu den meisten anderen Forschungsprojekten arbeiteten Facebook-Teams für AI Research (FAIR) und Applied Machine Learning (AML) Seite an Seite an der Erhöhung der Minibatch-Größe. Von hier aus wollen die Gruppen einige der zusätzlichen Fragen untersuchen, die sich aus der heutigen Arbeit ergeben.

"Diese Arbeit wirft mehr Fragen auf, als sie beantworten", sagte Pieter Noordhuis, Mitglied des AML-Teams von Facebook. "Es gibt einen Wendepunkt jenseits von 8.000 Bildern, bei denen die Fehlerraten wieder steigen und wir nicht wissen, warum."

Facebook verwendete Caffe2, sein Open-Source-Deep-Learning-Framework, und seine Big-Basin-GPU-Server für dieses Experiment. Weitere Informationen von Facebook finden Sie hier, wenn Sie tiefer in die Details eintauchen möchten.