Ingénieur·e en fiabilité des sites - Site Reliability Engineer

External

Tobogganlabs · Montréal, Canada

Full-timeOn-site3d ago

ArgoCDAWSAzureBashCI/CDCloudFormation

Cover Letter Connect

Prepare for this interview

Elite

AI-generated questions, company research, and talking points tailored to this role

Benefits

Vision insurance

Additional Information

La version anglaise suivra - English version will follow Ingénieur-e en fiabilité des sites À propos de nous Toboggan Labs est une firme-conseil boutique qui œuvre à l'intersection de l'IA et de la santé. Nous résolvons des problèmes humains complexes en appliquant des technologies de pointe combinées à une solide compréhension du domaine. À propos du poste Nous sommes à la recherche d'un-e ingénieur-e en fiabilité des sites (SRE) pour aider nos clients à concevoir et exploiter des systèmes de production fiables, observables et sécurisés. Dans ce rôle, vous travaillerez aux côtés des équipes d'ingénierie et d'exploitation de nos clients pour améliorer la fiabilité des systèmes, réduire les tâches manuelles répétitives et bâtir les fondations opérationnelles - pipelines de déploiement, surveillance, gestion des incidents, infrastructure - qui maintiennent les systèmes en production en bonne santé. Veuillez noter que, bien que nous soyons spécialisés dans le secteur de la santé et les industries réglementées, tous nos projets ne relèvent pas de ces domaines. Vous pourriez donc être amené-e à travailler sur des projets variés dans différents secteurs, selon les besoins. Vos responsabilités quotidiennes Ingénierie d'infrastructure et de sécurité - Concevoir et maintenir des infrastructures infonuagiques résilientes et sécurisées à l'aide d'outils d'infrastructure-as-code; implanter des contrôles de sécurité, des standards de durcissement et des guardrails de conformité dans les environnements clients. Observabilité et fiabilité - Concevoir et implanter des systèmes de surveillance, d'alertes et de journalisation; piloter les processus de réponse aux incidents et de post-mortems; définir et suivre les SLO/SLI. Automatisation et opérations de plateforme - Automatiser les pipelines de déploiement, le provisionnement d'infrastructure et les runbooks opérationnels pour réduire les tâches manuelles et améliorer la résilience des systèmes. Sur certains mandats, leadership technique - Piloter le volet fiabilité et infrastructure, guider les équipes clients sur les pratiques SRE et contribuer aux décisions architecturales. Soutien à l'équipe - Partager votre expertise en fiabilité et opérations, contribuer aux outils et à la documentation internes, mentorer des collègues et participer à la communauté Toboggan. À propos de vous Nous recherchons des personnes ayant un solide historique en infrastructure infonuagique, DevOps et ingénierie de la fiabilité, qui abordent tout ce qu'elles construisent avec un souci de la sécurité. La majorité de nos clients utilisent AWS, Terraform, GitHub Actions ou des outils CI/CD similaires. Vous devez être à l'aise pour travailler à la frontière entre la fiabilité, la sécurité et les opérations TI. Quand nous parlons de fiabilité des systèmes, nous cherchons quelqu'un qui traite la fiabilité comme une fonctionnalité à part entière, et non comme une réflexion après coup - quelqu'un qui écrit du code pour éliminer les tâches répétitives, pense en termes de systèmes et construit des infrastructures aussi sécurisées qu'observables. Nous vous encourageons à postuler si vous : Avez 5 ans ou plus d'expérience en infrastructure, DevOps ou ingénierie de la fiabilité des sites; Avez une expérience pratique avec des infrastructures AWS ou Azure et des outils d'infrastructure-as-code (Terraform, CloudFormation ou équivalents); Avez une solide expérience avec les pipelines CI/CD (GitHub Actions, ArgoCD, Jenkins ou équivalents) et l'automatisation des déploiements; Avez de l'expérience avec des outils d'observabilité (Prometheus, Grafana, Datadog, CloudWatch ou équivalents) et les processus de gestion des incidents; Êtes familier-ère avec les bonnes pratiques de sécurité pour l'infrastructure infonuagique, incluant la sécurité réseau, l'IAM, le chiffrement et la gestion des vulnérabilités; Possédez d'excellentes compétences en communication et êtes capable d'expliquer des concepts d'infrastructure et de fiabilité à des parties prenantes variées; Êtes adaptable, autonome et à l'aise dans des environnements clients dynamiques; Savez expliquer les compromis entre fiabilité et sécurité et les relier aux besoins d'affaires. Atouts supplémentaires Expérience dans des rôles orientés client (consultation, ingénierie d'implantation, services-conseils); Expérience dans le secteur de la santé ou d'autres industries fortement réglementées; Expérience en développement logiciel au-delà du simple scripting (développement de fonctionnalités, d'API ou d'applications); Expérience avec l'orchestration de conteneurs (Kubernetes, ECS) et les outils de sécurité cloud-native; Expérience en automatisation d'infrastructure à l'aide de scripts (Python, Bash) ou d'outils de workflow; Détention de certifications pertinentes (AWS DevOps Professional, AWS Solutions Architect, CKA ou équivalentes). Toutes nos offres d'emploi décrivent un peu une licorne. Si vous êtes plutôt un « narval », postulez qu

Your Match

How well this role fits your profile.

Company Intel

What employees say

Worked at tobogganlabs? Share your experience

Interested in this role?

Apply on the company's website.

Cover Letter Connect