Lernen kontradiktorischer MDPs mit stochastischen harten Einschränkungen