Sign in

OmniVL: Ein Grundlagenmodell für bildsprachliche und videosprachliche Aufgaben

By Junke Wang and others
Dieses Papier stellt OmniVL vor, ein neues Grundlagenmodell zur Unterstützung von Bildsprach- und Videosprachaufgaben mit einer universellen Architektur. Es verwendet einen einheitlichen transformatorbasierten visuellen Encoder für Bild- und Videoeingänge und kann somit ein gemeinsames Vortraining für Bild- und Videosprache durchführen. Wir zeigen zum ersten Mal, dass ein solches Paradigma sowohl... Show more
October 19, 2022
=
0
Loading PDF…
Loading full text...
Similar articles
Loading recommendations...
=
0
x1
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
Click on play to start listening