WIE FACEBOOKS NEUE 3D-FOTOS FUNKTIONIEREN - TECHCRUNCH - SOZIALEN MEDIEN - 2018

Anonim

Im Mai hat Facebook ein neues Feature namens 3D-Fotos gehänselt, und es ist genau so, wie es sich anhört. Doch abgesehen von einem kurzen Video und dem Namen wurde wenig darüber gesagt. Aber das Computational-Photography-Team des Unternehmens hat gerade die Forschung veröffentlicht, die hinter der Funktionsweise des Features steckt, und nachdem ich es selbst ausprobiert habe, kann ich bestätigen, dass die Ergebnisse wirklich überzeugend sind.

Für den Fall, dass Sie den Teaser verpasst haben, werden 3D - Fotos wie alle anderen Fotos in Ihrem Newsfeed gespeichert, es sei denn, Sie scrollen, berühren oder klicken sie, oder neigen Sie Ihr Telefon, sie reagieren, als ob das Foto tatsächlich ein Fenster in ein ist winziges Diorama mit entsprechenden Perspektivwechsel. Es funktioniert sowohl für normale Bilder von Menschen und Hunden, aber auch für Landschaften und Panoramen.

Es klingt ein bisschen heikel, und ich bin ungefähr so ​​skeptisch wie sie kommen, aber der Effekt hat mich ziemlich schnell überzeugt. Die Illusion von Tiefe ist sehr überzeugend, und es fühlt sich an wie ein kleines magisches Fenster, das in eine Zeit und einen Ort schaut, anstatt in ein 3D-Modell - was es natürlich ist. So sieht es in Aktion aus:

Ich sprach über die Methode, diese kleinen Erfahrungen mit Johannes Kopf zu machen, einem Forscher im Facebook-Büro in Seattle, wo die Abteilungen für Kamera- und Computerfotografie angesiedelt sind. Kopf ist Co-Autor (mit Peter Hedman von University College London) des Papiers, in dem die Methoden beschrieben werden, mit denen die tiefenverstärkten Bilder erzeugt werden; Sie werden es im August auf SIGGRAPH vorstellen.

Interessanterweise war der Ursprung von 3D-Fotos keine Idee, wie Snapshots verbessert werden können, sondern wie die Erstellung von VR-Inhalten demokratisiert werden kann. Es ist alles synthetisch, wies Kopf darauf hin. Und kein gelegentlicher Facebook-Benutzer hat die Werkzeuge oder die Neigung, 3D-Modelle zu bauen und einen virtuellen Raum zu füllen.

Eine Ausnahme bilden Panorama- und 360-Bilder, die normalerweise breit genug sind, um über VR effektiv erkundet zu werden. Aber die Erfahrung ist ein wenig besser, als das auf Fleischpapier gedruckte Bild zu betrachten, das ein paar Meter entfernt schwebt. Nicht gerade transformativ. Was fehlt, ist ein Gefühl von Tiefe - so entschied sich Kopf, es hinzuzufügen.

Die erste Version, die ich gesehen habe, hatte Benutzer, die ihre gewöhnlichen Kameras in einem Muster bewegten, das eine ganze Szene festhielt; durch sorgfältige Analyse der Parallaxe (im Wesentlichen, wie Objekte in unterschiedlichen Entfernungen verschieben sich bei Bewegung der Kamera) und Telefon Bewegung, konnte diese Szene sehr schön in 3D rekonstruiert werden (komplett mit normalen Karten, wenn Sie wissen, was diese sind).

Die Ableitung von Tiefendaten aus den schnellen Bildern einer einzelnen Kamera ist jedoch ein CPU-hungriger Prozess und, obwohl in gewisser Weise effektiv, auch eher als eine Technik datiert. Vor allem, wenn viele moderne Kameras tatsächlich zwei Kameras haben, wie ein winziges Augenpaar. Und es sind Dual-Kamera-Handys, die in der Lage sein werden, 3D-Fotos zu erstellen (obwohl es Pläne gibt, das Feature in den Markt zu bringen).

So funktioniert das. Die zwei Kameras des Telefons nehmen ein Paar Bilder auf, und sofort berechnet das Gerät seine eigene Arbeit, um daraus eine "Tiefenkarte" zu berechnen, ein Bild, das die berechnete Entfernung von allem im Bild codiert. Das Ergebnis sieht ungefähr so ​​aus:

Apple, Samsung, Huawei, Google - sie alle haben ihre eigenen Methoden, dies in ihre Handys zu tun, obwohl bis jetzt hauptsächlich verwendet, um künstliche Hintergrundunschärfe zu erstellen.

Das Problem dabei ist, dass die erstellte Tiefenkarte keine absolute Skala hat - beispielsweise bedeutet hellgelb nicht 10 Fuß, während dunkelrot 100 Fuß bedeutet. Ein Bild, das mit einer Person ein paar Fuß nach links gemacht wurde, könnte gelb für 1 Fuß und rot für 10 sein. Die Skala ist für jedes Foto unterschiedlich, was bedeutet, dass wenn Sie mehr als eins nehmen, geschweige denn Dutzende oder Hundert wenig konsistente Angabe darüber, wie weit ein bestimmtes Objekt tatsächlich entfernt ist, was das Zusammennähen realistisch macht.

Das ist das Problem, das Kopf und Hedman und ihre Kollegen angenommen haben. In seinem System nimmt der Benutzer mehrere Bilder seiner Umgebung auf, indem er sein Handy bewegt; es erfasst jede Sekunde ein Bild (technisch zwei Bilder und eine resultierende Tiefenkarte) und beginnt damit, es seiner Sammlung hinzuzufügen.

Im Hintergrund betrachtet ein Algorithmus sowohl die Tiefenkarten als auch die winzigen Bewegungen der Kamera, die von den Bewegungserkennungssystemen des Telefons erfasst werden. Dann werden die Tiefenkarten im Wesentlichen in die richtige Form massiert, um sie mit ihren Nachbarn in Einklang zu bringen. Dieser Teil ist für mich unmöglich zu erklären, weil es die geheime mathematische Sauce ist, die die Forscher gekocht haben. Wenn Sie neugierig sind und Griechisch mögen, klicken Sie hier.

Dies schafft nicht nur eine glatte und genaue Tiefenkarte über mehrere Aufnahmen hinweg, sondern auch sehr schnell: etwa eine Sekunde pro Bild, weshalb das von ihnen erstellte Werkzeug mit dieser Geschwindigkeit schießt und warum sie das Papier "Instant 3D Photography" nennen."

Als nächstes werden die tatsächlichen Bilder zusammengefügt, so wie ein Panorama normalerweise wäre. Aber durch die Verwendung der neuen und verbesserten Tiefenkarte kann dieser Prozess um eine Größenordnung beschleunigt und reduziert werden.

Da unterschiedliche Bilder die Tiefe unterschiedlich erfassen, kann das Ausrichten schwierig sein, wie das linke und mittlere Beispiel zeigen - viele Teile werden ausgeschlossen oder erzeugen falsche Tiefenwerte. Die rechte Seite ist Facebooks Methode.

Dann werden die Tiefenkarten in 3D-Meshes (eine Art zweidimensionales Modell oder Shell) verwandelt - denken Sie daran wie eine Pappmaché-Version der Landschaft. Aber dann wird das Netz auf offensichtliche Kanten untersucht, wie ein Geländer im Vordergrund, das die Landschaft im Hintergrund verschließt und entlang dieser Kanten "zerrissen" wird. Dies räumt die verschiedenen Objekte aus, so dass sie in ihren verschiedenen Tiefen erscheinen und sich mit Perspektivänderungen so bewegen, als ob sie es wären.

Obwohl das den Diorama-Effekt, den ich anfangs beschrieben habe, effektiv erzeugt, könnte man meinen, dass der Vordergrund kaum mehr als ein Papierausschnitt zu sein scheint, denn wenn das Gesicht einer Person direkt erfasst würde, gäbe es keine Informationen über die Seiten oder Hinterkopf.

Hier kommt der letzte Schritt, den Rest des Bildes über ein konvolutionelles neuronales Netzwerk zu "halluzinieren". Es ist ein bisschen wie eine inhaltsbewusste Füllung, raten, was wo in der Nähe hingeht. Wenn Haare da sind, dann geht das Haar wahrscheinlich weiter. Und wenn es ein Hautton ist, geht es wahrscheinlich auch weiter. Es erstellt also überzeugend diese Texturen entlang einer Schätzung, wie das Objekt geformt werden könnte, und schließt die Lücke, so dass Sie, wenn Sie die Perspektive leicht ändern, scheinbar das Objekt "herum" sehen.

Das Endergebnis ist ein Bild, das realistisch auf Änderungen der Perspektive reagiert, sodass es in der VR-Ansicht oder als Diorama-3D-Foto im Nachrichtenfeed angezeigt werden kann.

In der Praxis muss niemand etwas anderes tun, zum Beispiel ein Plug-in herunterladen oder eine neue Geste lernen. Wenn man an diesen Fotos vorbeischlendert, ändert sich die Perspektive leicht und die Menschen werden auf ihre Anwesenheit aufmerksam gemacht, und von dort aus fühlen sich alle Interaktionen natürlich an. Es ist nicht perfekt - es gibt Artefakte und Verrücktheiten in den zusammengesetzten Bildern, wenn man genau hinsieht, und natürlich variiert die Laufleistung von den halluzinierten Inhalten - aber es ist lustig und ansprechend, was viel wichtiger ist.

Der Plan ist, das Feature Mitte des Sommers zu veröffentlichen. Momentan beschränkt sich die Erstellung von 3D-Fotos auf Geräte mit zwei Kameras - das ist eine Einschränkung der Technik - aber jeder kann sie sehen.

Die Arbeit befasst sich jedoch auch mit der Möglichkeit der Erzeugung einer einzelnen Kamera über ein anderes konvolutionelles neuronales Netzwerk. Die nur kurz berichteten Ergebnisse sind nicht so gut wie die Dual-Kamera-Systeme, aber immer noch respektabel und besser und schneller als einige andere derzeit verwendete Methoden. Diejenigen von uns, die immer noch im dunklen Zeitalter einzelner Kameras leben, haben etwas zu hoffen.