Probeneffizientes Lernen von POMDPs mit mehreren Beobachtungen im Nachhinein