Sign in

Erforschung der visuellen Interpretierbarkeit für kontrastives Sprachbild-Vortraining

By Yi Li and others
Kontrastives Sprachbild-Vortraining (CLIP) lernt reichhaltige Darstellungen durch leicht verfügbare Überwachung der natürlichen Sprache. Es verbessert die Leistung von nachgeschalteten Bildverarbeitungsaufgaben, einschließlich, aber nicht beschränkt auf Zero-Shot, Long-Tail, Segmentierung, Abrufen, Beschriftung und Video. Die visuelle Erklärbarkeit von CLIP wird jedoch selten untersucht, insbesondere für die rohe Feature-Map. Um visuelle Erklärungen für... Show more
November 27, 2022
=
0
Loading PDF…
Loading full text...
Similar articles
Loading recommendations...
=
0
x1
Exploring Visual Interpretability for Contrastive Language-Image Pre-training
Click on play to start listening