Reinforcement Learning Engineer - Ingénieur(e) en apprentissage par renforcement

External

Nbcuniversal3 · Montréal, Canada

Full-timeOn-siteToday

ConfluenceGitJiraMachine LearningPythonReinforcement Learning

Cover Letter Connect

Prepare for this interview

Elite

AI-generated questions, company research, and talking points tailored to this role

Responsibilities

Cross-Functional Coordination: Work with partner ML and Annotation engineers and TPMs to spec out data, simulation, and training requirements.
Environment Design: Build and maintain high-fidelity 2D/3D simulation environments (using tools like Unity, Unreal, or Isaac Sim) that serve as the training ground for RL agents.
Reward Engineering: Design and tune complex reward functions that align agent behavior with product goals and safety constraints.
Algorithm Implementation: Develop and optimize RL algorithms (e.g., PPO, SAC, or Offline RL) capable of handling high-dimensional 3D observation spaces.
Sim-to-Real Strategy: Analyze the "reality gap" and implement domain randomization or adaptation techniques to ensure models perform reliably in real-world scenarios.
Vous jouerez un rôle clé dans le rapprochement entre simulation et performance réelle en développant des systèmes RL évolutifs et en garantissant un comportement fiable des agents dans des conditions variées.
Collaboration interfonctionnelle : Travailler avec les ingénieurs ML, les équipes d'annotation et les TPM afin de définir les besoins en données, en simulation et en entraînement.
Conception d'environnements : Développer et maintenir des environnements de simulation 2D/3D à haute fidélité à l'aide d'outils tels que Unity, Unreal ou Isaac Sim.
Ingénierie des récompenses : Concevoir et optimiser des fonctions de récompense afin d'aligner le comportement des agents avec les objectifs produit et les contraintes de sécurité.
Implémentation d'algorithmes : Développer et optimiser des algorithmes d'apprentissage par renforcement (ex. : PPO, SAC, RL hors ligne) adaptés à des espaces d'observation à haute dimension.
Stratégie sim-to-real : Réduire l'écart entre simulation et réalité à l'aide de techniques comme la randomisation de domaine et l'adaptation afin d'assurer des performances fiables en conditions réelles.
Education: Graduate degree (Master's or PhD) in Robotics, Computer Science, AI, or a related field with a focus on Reinforcement Learning, Imitation Learning, or other Online Machine Learning fields.
Professional Experience: Proven experience as an RL Engineer or Research Engineer in a fast-paced environment.
Industry Context: Prior experience in industries with complex multi-disciplinary teams such as robotics, smart grids, precision agriculture, game development, or aerospace.
Technical Proficiency:
Core Tools: Fluency with Python, Git, and the Unix shell.
RL Frameworks: Deep familiarity with frameworks like Ray Rllib, Stable Baselines3, or CleanRL.
Physics & 3D Engines: Experience with physics engines (MuJoCo, Bullet) or 3D game engines.
Ecosystem: Familiarity with collaborative tools such as Jira/Confluence, Slack, a Git server, and an experiment tracking framework.
Attributes:
Strong Mathematical Background: Essential for understanding Markov Decision Processes (MDPs) and gradient-based optimization.
High Attention to Detail: Critical for debugging non-deterministic agent behaviors and ensuring environment parity.
Formation : Maîtrise ou Doctorat en robotique, informatique, intelligence artificielle ou domaine connexe avec une spécialisation en apprentissage par renforcement, imitation ou apprentissage en ligne.
Expérience : Expérience démontrée en tant qu'ingénieur(e) en apprentissage par renforcement ou en recherche dans un environnement dynamique.
Contexte industriel : Une expérience dans des secteurs multidisciplinaires tels que la robotique, les réseaux intelligents, l'agriculture de précision, les jeux vidéo ou l'aérospatiale est fortement valorisée.
Compétences techniques
Outils principaux : Excellente maîtrise de Python, Git et des environnements Unix.
Frameworks RL : Expérience avec des frameworks tels que Ray RLlib, Stable Baselines3 ou CleanRL.
Physique et simulation : Expérience avec des moteurs physiques (MuJoCo, Bullet) ou des environnements de simulation 3D.
Écosystème : Familiarité avec des outils collaboratifs tels que Jira, Confluence, Slack, les workflows Git et les plateformes de suivi d'expériences.
Qualités recherchées
Solides bases mathématiques : Bonne compréhension des processus de décision de Markov (MDP) et de l'optimisation basée sur le gradient.
Rigueur et précision : Capacité à déboguer des systèmes n

Additional Information

We are seeking a Reinforcement Learning Engineer with experience manipulating virtual environments to train autonomous agents. This role focuses on the design of robust simulation environments, reward structures, and policy architectures that can navigate complex, multi-sensor landscapes.

Your Match

How well this role fits your profile.

Company Intel

What employees say

Worked at Nbcuniversal3? Share your experience

Interested in this role?

Apply on the company's website.

Cover Letter Connect