CérénIT

Le blog tech de Nicolas Steinmetz (Time Series, IoT, Web, Ops, Data)

Ansible, à la rescousse en cas de crash serveur

ansible automatisation crash rto rpo incident

Il y a de cela une dizaine de jours, la partition système d’un serveur d’un de nos clients est passé en lecture seule suite à un problème de consistence sur le disque. Pour les services en cours et ne dépendant pas de fichiers sur cette partition, les services continuaient de fonctionner. Pour les autres, ils étaients hors service ou dans une situation de dsyfonctionnement dès lors qu’ils avaient besoin d’écrire un fichier sur la partition système.

Pour rétablir le service dans les plus brefs délais et investiguer ce problème dans un second temps, nous avons décidé de créer un nouveau serveur, de lui attacher les données et l’IP du serveur hors-service. Cette opération a été grandement facilitée vu que nous utilisons dans ce cas l’offre IAAS de Gandi : en quelques clicks, un nouveau serveur a été provisionné, et les disques contenant les données et les backups ont été attachés au nouveau serveur.

Vient alors Ansible : grâce aux playbooks, préalablement rédigés par nos soins, pour installer l’ensemble des logiciels et le paramétrage associé des serveurs de notre client, le serveur était opérationnel dans les 15 minutes. Quelques tests plus tard, nous pouvions alors migrer l’IP de l’ancien serveur vers le nouveau et rendre le site à nouveau accessible au bout de 30 minutes environ.

Malheureusement, toutes les modifications et quelques actions n’étaient pas encore reportées ou rédigées dans nos playbooks. L’heure suivante a donc consisté à rattrapper ces informations et jouer les actions manquantes. Depuis lors, elles ont été réintégrées dans les playbooks .

Au final, en 1h30 après décision de reconstruire le serveur, le service était totalement rétabli et avec un retour partiel au bout de 30 minutes environ. Si nous avions du rejouer toute l’installation à la main, cela aurait durer bien plus de temps et avec des risques d’erreurs / oublis non négligeables et sans parler du doute persistent : a-t-on bien tout récupéré ?

Un crash serveur est une situation stressante pour tout le monde ; il est agréable de pouvoir compter sur un outil comme Ansible pour garantir l’état final d’un serveur (prédictibilité). Cela apporte une certaine sérénité et permet de rétablir le service au plus vite pour le bien de tous. Au-delà du premier déploiement, cela requiert une certaine hygiène de vie du serveur pour maintenir les playbooks à jour.

Web, Ops & Data - Semaine 26

kafka docker orientdb swarm select stream beam

Docker

La version 1.12 apporte son lot de nouveautés :

OrientDB

  • Pattern matching with OrientDB : pour un cas d’usage d’une connaissance, nous avons investigué les données Graph comme OrientDB pour matérialiser des relations et des inter-connexions. Le billet montre comment via des requêtes SQL on peut parcourir le graph et définir des pattern.

HTML/JS/CSS

Streams

  • Apache Kafka and Kafka Streams at Berlin Buzzwords ; la CTO de Confluent a fait un tour d’Europe où elle présente Kafka, Kafka Connect et Kafka Streams et surtout sa vision du Stream processing et les impacts que cela a sur notre façon de développer des applications et consommer de la donnée. Ils ont une approche assez pragmatique du sujet, l’ayant mis en place notamment chez LinkedIn et chez d’autres clients.
  • Why Apache Beam ? : Beam est un projet Apache et la version Open Source de ce qu’a implémenté Google pour sa plateforme Google Cloud Data Flow. C’est un modèle de programmation pour traiter de la donnée dans une logique de streaming. Le billet porte sur l’intégration de Beam dans Flink (un moteur de processing temps réel). De quoi voler la vedette à Spark Streaming ?

Web, Ops & Data - Semaine 24

elasticsearch hue serverless architecture big data git

Elasticsearch & friends

  • Elastic Stack Release 5.0.0-alpha3 : Elastic continue son bonhomme de chemin avec diverses améliorations et efforts de stabilisations pour l’ensemble de leurs produits. On notera aussi quelques incompatibilités ascendentes (gestion des propriétés d’Elasticsearch) dans le cadre de la version 5.0

Big Data

  • Hue 3.10 with it’s new sql editor is out : Hue, une interface web d’accès et de suivi des données et des jobs d’une plateforme Hadoop est sortie fin mai dernier avec son lot de nouveautés et notamment une refonte graphique.

Git

  • Git, the simple guide : un revue très claire des principales commandes git ; existe en plusieurs langues.

Architecture Serverless

  • Serverless architectures : c’est le buzzword du moment, l’idée consiste à dire qu’on ne gère plus des serveurs mais que l’on déploie son application sur la base de différentes services cloud. On y voir la notion de “Backend as a service” ou de “Function as a Service”. L’idée étant que pour chaque foncitonnalité attendue (stockage, authentification, etc), l’application finale s’appuie sur n services et que l’entreprise développant l’application ne possède en soi aucun serveur.

Web, Ops & Data - Semaine 22

kafka orientdb confluent ansible revue de code traefik

Traefik

OrientDB

Ansible

Revue de code

Kafka

Web, Ops & Data - Semaine 20

docker elasticsearch rest graphql falcor python html

Python

  • Python et HTML : David a publié une collection de librairies python pour manipuler du HTML en Python. J’utilise déjà la magnifique requests, je vais pouvoir en ajouter quelques-unes à la liste.

Elasticsearch

REST

24 25 26 27 28