Selbstüberwachte Videoobjektsegmentierung durch Ausschnittvorhersage und Tagging