Ingénieur Reliability Expert Cloud AWS (ARCHIVE)

  • Localisation: Marseille Télétravail
  • Métier: Cloud
  • Type de contrat: CDI
  • Salaire: 70/85K
  • Type d'entreprise: Grand compte
  • Compétences: #Cloud #AWS

Description de poste

ref: 22-6

CDI – Mission au sein d’un grand groupe de transport

Le candidat doit avoir totalisé un minimum de 10 ans d’expérience professionnelles sur des sujets similaires,
pour que la candidature soit recevable. A défaut nous ne pourrons pas donner de suite positive.

Rôle : diriger la mission d’ingénierie de la reliability du site pour le commerce électronique
Description  : responsable de la disponibilité, de la latence, de l’efficacité des performances, de l’observabilité et de la planification de la capacité des applications cloud.

Avoir une solide expérience en programmation est nécessaire pour un spécialiste du Cloud Computing (AWS Certified DevOps Pro) et des outils DevOps.
Il/Elle est membre de la Product Team eCommerce (Platform team), et est responsable de la disponibilité, de la latence, de l’efficacité des performances,
l’observabilité et la planification de la capacité des applications cloud. Ce rôle est dédié à unifier la vision, la mission sur la reliability t de la plateforme eCommerce.
Il / Elle doit s’assurer que les exigences de QUALITÉ code / Code Upgrade sont respectées afin d’exploiter les performances du Cloud computing et travaillera en étroite collaboration avec les développeurs et les opérations.

Missions :
Gérer l’asymétrie
Mener avec Dev & Ops la bonne stratégie de reliability t est strictement nécessaire pour éviter une complexité excessive.
Contribuer à la mise en œuvre d’offres standardisées qui intègrent l’intégralité du cycle de vie des applications dans l’automatisation, y compris de bout en bout, et les tests de performances, la résolution automatisée des problèmes, le processus de suivi des versions vérifiable et l’expérience mesurable de l’utilisateur final.
Déclencher des actions ou des prises de décision pour contrer les situations contre la reliability
Gérer l’asymétrie entre l’équipe de développement et l’équipe d’exploitation pour préserver la reliability

-Assister les équipes de développement d’applications dans la mise en œuvre du code en privilégiant :
-Eviter de rechercher beaucoup plus de reliability que ce qui est strictement nécessaire
-Automatisation des tâches opérationnelles avec optimisation des coûts à l’esprit
-Concevoir et mettre en œuvre l’observabilité
-Intégrité de la confidentialité des données

– Assister l’équipe des opérations (responsable de service) dans
– Définir et mesurer les objectifs de reliability  (SLA, SLO, SLI)
– Définir, tester et exécuter un processus de gestion des incidents
– Planification de la capacité
– Gestion des changements et des versions, y compris CI/CD
– Amélioration continue

Procédez à l’automatisation ou à l’élimination de tout élément répétitif. Mesurer et agir pour réduire la dette et les risques du travail
Limiter, optimiser les charges opérationnelles excédentaires (billets, réunion) pour obtenir des développeurs concentrés (plus de concentration, plus de qualité, plus de stabilité)
Partager les connaissances et les priorités en matière de reliability  du commerce électronique avec toutes les équipes
Définir les check-lists de release en collaboration avec chaque partie
Explorez de nouvelles pratiques avec les équipes Dev et Ops : Chaos engineering, sandboxing étendu, process canary, Monkey test…etc

Livrable :
Interférera dans le lancement de fonctionnalités.
Organiser les revues de lancement et geler les lancements si le service n’est pas dans le SLA (Lancer si le service est dans le SLA – mesurer la qualité de l’équipe de développement)

La gestion des incidents :
Préparer des stratégies pour gérer les incidents
Gérer ou diriger la façon dont l’événement est géré pour minimiser les dommages et rendre la panne aussi courte que possible
Organiser un groupe de travail minimum pour gérer les incidents (Gérer la taille optimale de l’équipe)
S’assurer que le post mortem est écrit (chronologie, faits, déclarer les bogues dans le système de bogues et tous les travaux de suivi), organiser un bon diagnostic

Compétences requises :
Compétences cloud AWS avec une compréhension approfondie des technologies de cloud computing et des défis de transition de charge de travail

Développement
Cloud Ops/Ops – Expérience de développeur avec une expérience approfondie dans au moins UN
langage : C++, Java, Python, Ruby etc.
Connaissance approfondie des processus et méthodologies de développement
Compétences approfondies en architecture logicielle et en programmation
Compréhension approfondie des architectures orientées services (SOA et REST)

Opérations :
Comprendre les pannes de performances
Connaissance des performances et de la sécurité Web et Cloud
Expérience avec des services d’automatisation tels que – Lambda, Step Functions
Connaissance du paysage des outils DevOps (Jenkins, Terraform, Ansible) et expérience de l’intégration de divers outils DevOps
ensemble pour fournir une gestion de bout en bout du cycle de vie des applications
Méthodologie
Expérience de travail dans un environnement Agile/Scrum
Certifications
Développeur certifié AWS – Associé (obligatoire)
Ingénieur DevOps certifié AWS – Professionnel ( important )