Learning driving policies for realistic traffic simulations
Apprentissage de politiques de navigation pour la simulation de trafic réaliste
Abstract
Self Driving Vehciles(SDV) experienced fast development during the last decades with the joint rise of deep learning and high speed computation technologies. Currently, SDV are only able to drive in restricted locations such as highways and lack safety in interactive urban scenarios. Traffic simulation appears as a promising tool for incremental development of SDV because it makes it possible to run quantitative evaluation in a risk free setting. However, practical use cases require the simulator to provide realistic social interactions among all traffic agents such that the SDV can be tested as in real world conditions. In this work, we propose an approach to learn human-like driving policies for traffic simulation that can generalize safe driving behaviors in new and interactive scenarios. We first developed a hierarchical driving policy based on a routing module combined with a maneuver planner implemented with deep neural networks. We then learned navigation policies capable of imitating long-term expert trajectories thanks to the principle of Adversarial Imitation Learning (AIL). In order to benefit simultaneously from domain knowledge and real data, we propose a new multi objective algorithm that combines two policy gradients one computed with a data-driven reward computed with a discriminator trained with AIL and another based on a synthetic reward that encodes basic traffic rules. Our method resulted in better performances compromise in terms of security and imitation, in particular thanks to the inclusion of synthetic interactions generated with interactive agents.
Le domaine du véhicule autonome (VA) a connu un développement rapide au cours des dernières décennies avec l'essor conjoint des technologies d'apprentissage en profondeur et du calcul à grande vitesse. Actuellement, les VA ne peuvent conduire que dans des zones restreintes comme sur les autoroutes et manquent de sécurité dans les scénarios urbains interactifs. La simulation de trafic apparaît comme un outil prometteur pour le développement incrémental de VA car elle permet d'effectuer une évaluation quantitative des performances du système de navigation sans encourir de risque. Cependant, les cas d'utilisation pratiques nécessitent que le simulateur fournisse des interactions réalistes entre tous les agents de la circulation, de sorte que le SDV puisse être testé comme dans des conditions réelles. Dans ce travail, nous proposons une approche pour apprendre des politiques de conduite de type humaine pour la simulation de trafic capable de généraliser des comportements sûrs dans des scénarios nouveaux et interactifs. Nous avons commencé par développer une politique de conduite hiérarchique basée sur un module de routage combiné à un planificateur de manœuvre implémenté avec un réseau de neurones. Nous avons ensuite appris des politiques de navigation capable d'imiter les trajectoires d’expert à long terme grâce au principe de l’Adversarial Imitation Learning(AIL ). Afin de bénéficier simultanément des connaissances préalables sur la tâche de navigation et des démonstrations réelles, nous avons proposé un nouvel algorithme multi-objectifs qui combine deux gradients de politique, l'un calculé avec une récompense basée sur un discriminateur entraîné sur des données réelles et l'autre basé sur une récompense synthétique qui encode les règles de circulation de base. Notre méthode a permis d'obtenir de meilleurs compromis de performances en termes de sécurité et d’imitation notamment grâce à l'inclusion d'interactions synthétiques générées avec des agents interactifs.
Origin | Version validated by the jury (STAR) |
---|