Vielfältige Instanzenerkennung: Vision-Transformer für instanzbewusste Multi-Label-Bilderkennung