DeepStereo: Software verwandelt Street View in Filme

Mit künstlicher Intelligenz lässt sich aus einer Folge von Standbildern ein verblüffend realistischer Film erzeugen. Ein neuronales Netz errät, was man nicht sehen kann.

von Jan Dönges

Screenshot aus dem Demonstrationsvideo von "DeepStereo" — © John Flynn / Google Inc. / YouTube (Ausschnitt)

Die gesamte zivilisierte Welt (mit Ausnahme Deutschlands) ist bereits von den Kameras von Google aufgezeichnet worden. Wer ferne Länder entdecken will, kann dies also auch am heimischen Computer mittlerweile ganz gut erledigen. Allerdings ist klicken angesagt: Um virtuell eine Straße entlangzuschlendern, muss man von Bild zu Bild navigieren. Schöner wäre es, wenn man einfach einen Film betrachten könnte.

Genau das stellt nun eine neue Software in Aussicht, die sich die Stärken von Deep Learning zu Nutze macht, der neuesten Generation künstlicher neuronaler Netze. Stellt man dem Programm zwei nacheinander aufgenommene Bilder zur Verfügung, errechnet es den dazwischenliegenden Blickwinkel. So lassen sich ganze Filme zusammenfügen.

Das "DeepStereo" getaufte Verfahren haben jetzt Google-Forscher um John Flynn vorgestellt. Leider ist die Bildinterpolation noch recht rechenintensiv, jedes neue Einzelbild schlägt bei einem schnellen Computer mit zwölf Minuten zu Buche, in Echtzeit lässt sich das Verfahren darum (noch) nicht anwenden.

DeepStereo: Learning to Predict New Views from the World’s Imagery

Das Video zeigt in Film verwandelte Szenen aus Street-View-Aufnahmen von Innenräumen und der Lombard Street in San Francisco

Größtes Problem bei derartigen Interpolationen ist es, Bereiche auszufüllen, die weder auf dem Vorher-, noch auf dem Nachherbild eindeutig zu sehen sind. Exakte 3-D-Rekonstruktionen einer Szene kommen an solchen Stellen schnell in Schwierigkeiten. Das unscharf arbeitende Deep-Learning-Netz soll dieser Aufgabe besser gewachsen sein, weil Bildfehler weniger krass herausstechen würden, erläutert das Magazin "Technology Review".

Für die Entwicklung ihres Systems haben die Google-Wissenschaftler auf den riesigen Bilderschatz ihres Unternehmens zurückgegriffen und zunächst dem Netz beigebracht, Bilder zu interpolieren, die bereits existieren – das heißt, sie wählten das erste und dritte in einer Sequenz und ließen das Programm das dazwischenliegende errechnen. Das tatsächliche mittlere Bild stand ihnen dann als Korrektiv zur Verfügung, um die Ausgabe des Netzes anzupassen. Insgesamt 100 000 solcher Sequenzen wurden zum Training des Systems herangezogen.

Schreiben Sie uns!

Beitrag schreiben

Beitrag darf veröffentlicht werden

Wir freuen uns über Ihre Beiträge zu unseren Artikeln und wünschen Ihnen viel Spaß beim Gedankenaustausch auf unseren Seiten! Bitte beachten Sie dabei unsere Kommentarrichtlinien.

Tragen Sie bitte nur Relevantes zum Thema des jeweiligen Artikels vor, und wahren Sie einen respektvollen Umgangston. Die Redaktion behält sich vor, Zuschriften nicht zu veröffentlichen und Ihre Kommentare redaktionell zu bearbeiten. Die Zuschriften können daher leider nicht immer sofort veröffentlicht werden. Bitte geben Sie einen Namen an und Ihren Zuschriften stets eine aussagekräftige Überschrift, damit bei Onlinediskussionen andere Teilnehmende sich leichter auf Ihre Beiträge beziehen können. Ausgewählte Zuschriften können ohne separate Rücksprache auch in unseren gedruckten und digitalen Magazinen veröffentlicht werden. Vielen Dank!