CérénIT

Le blog tech de Nicolas Steinmetz (Time Series, IoT, Web, Ops, Data)

Web, Ops & Data - Semaine 33

docker orientdb amazon emr spark mysql cluster replication géospatial

Docker

  • Docker Built-in Orchestration Ready for Production: Docker 1.12 Goes GA : avec la sortie de la version 1.12 de Docker contenant le nouveau modèle d’orchestration (basé sur Swarm), le billet présente comment l’ordhestrateur a été implémenté, la relation Manager/Worker nodes, les communications intra managers et intra workers. De quoi avoir une meilleure vision sur le fonctionnement de ce nouvel orchestrateur.

Big Data

  • Amazon EMR 5.0.0 – Major App Updates, UI Improvements, Better Debugging, and More : Amazon a fait une mie à jour significative de son offre managée Hadoop avec notamment une mise à jour significative pour Hive (1.x => 2.x) et Spark (intégration de la v2 sortie cet été). Si tous les composants supportent le stockage S3 en entrée/sortie des jobs, cela peut (re)donner à EMR de l’intérêt pour une platforme de calcul à la demande.
  • Spark Release 2.0.0 : Qui dit 2.0, dit stabilisation des API sous-jacentes et par ailleurs de nombreuses améliorations. Je vous laisse le soin de lire les release notes pour y trouver votre bonheur.

MySQL

  • MySQL 5.7 apporte le plugin “MySQL Group Replication” qui permet d’obtenir un cluster MySQL distribué (multi-master, haute disponibilité) ; comme l’installation ne semble pas triviale, Percona a décidé de fournir des images Docker : Docker Images for MySQL Group Replication 5.7.14. A voir s’il existe également pour MariaDB ou si un équivalent existe pour MariaDB.

OrientDB

  • Spatial Module in OrientDB 2.2 : avec la version 2.2, OrientDB (la base de données orientée graph et document) s’est doté d’un meilleur support des données géospatiales. Au delà du simple couple de coordonnées longitude/lattitude, OrientDB sait gérer des points et des polygones.

Web, Ops & Data - Semaine 26

kafka docker orientdb swarm select stream beam

Docker

La version 1.12 apporte son lot de nouveautés :

OrientDB

  • Pattern matching with OrientDB : pour un cas d’usage d’une connaissance, nous avons investigué les données Graph comme OrientDB pour matérialiser des relations et des inter-connexions. Le billet montre comment via des requêtes SQL on peut parcourir le graph et définir des pattern.

HTML/JS/CSS

Streams

  • Apache Kafka and Kafka Streams at Berlin Buzzwords ; la CTO de Confluent a fait un tour d’Europe où elle présente Kafka, Kafka Connect et Kafka Streams et surtout sa vision du Stream processing et les impacts que cela a sur notre façon de développer des applications et consommer de la donnée. Ils ont une approche assez pragmatique du sujet, l’ayant mis en place notamment chez LinkedIn et chez d’autres clients.
  • Why Apache Beam ? : Beam est un projet Apache et la version Open Source de ce qu’a implémenté Google pour sa plateforme Google Cloud Data Flow. C’est un modèle de programmation pour traiter de la donnée dans une logique de streaming. Le billet porte sur l’intégration de Beam dans Flink (un moteur de processing temps réel). De quoi voler la vedette à Spark Streaming ?

Web, Ops & Data - Semaine 22

kafka orientdb confluent ansible revue de code traefik

Traefik

OrientDB

Ansible

Revue de code

Kafka