CérénIT

Le blog tech de Nicolas Steinmetz (Time Series, IoT, Web, Ops, Data)

Web, Ops, IoT et Time Series - Septembre 2024

25/09/2024 valkey redis elasticsearch s3 postgres duckdb ibis pandas kestra

Cloud

Amazon S3 now supports conditional writes : Amazon S3 supporte les écritures conditionnelles (avec des conditions comme “si le fichier existe”, etc), ce qui peut supprimer une partie de votre code. Un exemple d’usage de ces écritures conditionnelles avec le billet Leader Election With S3 Conditional Writes qui montre comment gérer basiquement l’élection d’un leader dans un système distribué en se basant sur cette fonctionnalité.
How to delete a versioned bucket in AWS S3 using the CLI? : Parce que pour supprimer un bucket avec versionning, il faut supprimer les fichiers, les versions du fichiers et les fichiers marqués comme effacés…

Database

Elasticsearch is Open Source, Again : Elasticsearch et Kibana se voient ajouter une licence AGPL en plus des licences (restrictives) existantes pour revenir dans le monde de l’OSS. La vision positive est de dire que c’est le témoin de la fin d’une époque et que les relations entre les communautés OSS et les CSP américains se sont civilisées. Une vision plus critique consiste à dire qu’il y a toujours les anciennes licences et que le retour à l’OSS est peut être plus symbolique d’autre chose du fait de l’empilement de licences. A voir comment cela évolue mais l’épisode Redis du printemps nuance le sujet…
Valkey 8.0: Delivering Enhanced Performance and Reliability - Generally Available: Valkey 8.0.0 Valkey, le fork de Redis 7.2 sous l’égide de la Linux Foundation, a sorti sa version 8.0RC1 en aout et la version finale en septembre - Un point important est la sortie du “single thread model” qui pouvait devenir bloquant pour la scalabilité à force. Pas mal d’autres travaux sur les parties performance / réplication / résilience / observabilité. A ne pas confondre avec Redis 8
DuckDB, in-memory, mais pas totalement ! : En fonction de la taille de votre dataset, DuckDB peut être amené à créer (beaucoup) de fichiers temporaires. Utiliser le format interne de DuckDB semble être une bonne option pour éviter de créer ces fichiers temporaires et ne générer que les fichiers parquets ou autre qu’à la fin du process.
Announcing DuckDB 1.1.0 : Version 1.1 de DuckDB
Search on PostgreSQL, Building Extensions, and pg_analytics with Philippe Noël : Interview du fondateur de ParadeDB qui fait pg_lakehouse, pg_analytics et pg_search avec un retour sur les extensions Postgres.

Middleware

Kestra Secures $8 Million to Simplify and Unify Orchestration for All Engineers - How Kestra Raised $8M: Our Seed Deck, Now Public - Lessons Learned from Turning an Open-Source Project into a Viable Business: Kestra fait une seconde levée de fonds de 8M$ pour pousser plus loin son orchestrateur. Si vous avez des besoins d’orchestration, la solution est vraiment agréable à utiliser et l’équipe est top. Ils profitent de l’occasion pour partager différentes ressources et considération sur le projet et leur levée de fonds.
Episode 205 : Kestra avec Ludovic Dehon : ma piste audio est partie dans les limbes mais il n’en reste pas moins que cette épisode vous permet d’avoir une présentation de Kestra, sa génèse, leurs choix et le futur.

Python

Farewell pandas, and thanks for all the fish. : DuckDB devient le backend par défaut du projet Ibis en lieu et place de Pandas. Le billet explique les raisons (NaN vs NULL, performances, etc)

Rendez-vous à la fin du mois prochain pour une nouvelle édition.

Web, Ops, IoT et Time Series - Aout 2024

28/08/2024 pyinfra ansible python pylyzer uv poetry iot sécurité rbac

Général

Stack Overflow Survey: 80% of developers are unhappy : Les raisons de la frustration seraient techniques (dette technique, complexité de la stack technique), organisationnels (réunions, planning, pression) ou plus globaux comme les licenciements massifs dans la tech.

IoT

Why has the Internet of Things failed? : Moins de 50% des objets IoT seraint effectivement connectés. 3 barrières principales : la configuration intiale, l’(in)utilité de l’objet en lui-même et l’énergie (alimentation et communication). Sans utilitée avérée de l’objet, il ne sert à rien d’optimiser les deux autres. Si on a l’utilité, alors il faut trouver les meilleurs compromis pour avoir une bonne UX de configuraiton initiale et une gestion énergétique du device. Peut être juste la fin de la cycle de hype pour l’IoT et en route vers la maturité ?

Ops

PyIfra 3.0 & 3.1 : pyinfra se veut une alternative à Ansible. Si pyinfra ne dispose pas (encore) d’un nombre équivalent de modules à celui d’Ansible, il se distingue d’Ansible par le fait que les tâches ne sont pas décrites au format YAML mais sont du code Python. La version 3.0 résoud principalement les limitations de PyInfra 2.x sur son mode d’exécution en deux étapes (préparation puis exécution). A tester et à surveiller à défaut de pouvoir complètement remplacer des playbooks Ansible pour le moment…

Python

pylyzer : vous aimiez Ruff sur la partie linter, alors vous pourriez aimer pylyser sur la partie typage. Le projet est encore jeune et incomplet mais semble prometteur. Une extension VSCode est d’ailleurs disponible.
uv: Unified Python packaging : l’équipe Astral, celle derrière ruff semble bien avancer sur leur gestionnaire de packages pour python (mais codé en rust). Si la version précédente se concentrait sur le remplacement de pip, cette version va plus loin et vise poetry ou pdm voir pyenv en allant jusqu’à l’instalation de python en lui-même. En plus des apports fonctionnels, les performances semblent aussi être au rendez-vous. Peut-être encore un peu tôt pour migrer vos projets dessus mais définitivement à surveiller.

Sécurité

The End of Role-based Security and the Rise of Attribute-based Security : le modèle des rôles est vite imparfait - un modèle basé sur les attributs serait plus flexible et adapté ?

Rendez-vous à la fin du mois prochain pour une nouvelle édiiton.

Web, Ops, IoT et Time Series - Juillet 2024

24/07/2024 quickwit databricks snowflake merge request best practice vscode ia llm

Data

How Binance built a 100PB log service with Quickwit | Quickwit : Si vous avez des logs en quantité, il semblerait que Quickwit soit la solution
Databricks, Snowflake and the future : une résumé des principales annonces des Summit de Databricks et de Snowdflake, ainsi qu’une mise en perspectie de leur positionnement respectifs.

Dev

Review your own PRs : Exercice que je pratique sur mon propre code - si ça peut sembler fastidieux les premières fois, voir le code dans un autre contexte que son IDE favori permet de prendre du recul sur son code et de trouver pas mal de bugs ou de revoir l’architecture de son code. C’est d’ailleurs dans les critères d’admissibilité d’une MR chez nous - si le développeur n’a pas validé qu’il a relu sa MR dans Gitlab, alors je ne fais pas la revue.
A Bunch of Programming Advice I’d Give To Myself 15 Years Ago : de bonnes pratiques de développement à s’appliquer ou à appliquer à son équipe.
2/6 | Exposing Malicious Extensions: Shocking Statistics from the VS Code Marketplace : vous allez regarder vos extensions VSCode différemment à partir de maintenant - le modèle se sécurité autour des extenions VSCode semble inexistant tant au niveau de la validation des extensions sur la marketplace que lors de leur exécution sur votre ordinateur 😱

IA

AI’s $600B Question : Bulle ou pas bulle dans l’IA, telle est la question… et une tentarive de réponse.
GDIY #397 - Yann Le Cun - Meta - L’Intelligence Artificielle Générale ne viendra pas de Chat GPT : un épisode passionnant et très instructif. Impressionné par le fait que Yann Le Cun reste super pédagogue et rend les choses accessibles.

Bonnes vacances à tous et on se retoruve fin septembre ! 🏖️

Web, Ops, IoT et Time Series - Juin 2024

26/06/2024 caddy reverse-proxy api https fastapi parquet postgres htmx python ruff queue lakehouse repository pattern warp10

API

Your API Shouldn’t Redirect HTTP to HTTPS : La redirection http > https est souvent vu comme un confort et une bonne pratique - mais finalement peut être pas tant que ça ?

Data

Parquet & AI = 🙅‍♂️⛔️? : Rappel de ce qu’est le format parquet, ses limites et les nouveaux formats en cours d’élaboration (Lance & Nimble) pour les workloads IA (mais pas que ?)
pg_lakehouse via Musings on Data Lakes and Kafka Connect: une extension Postgres pour manipuler vos fichiers Parquet/CSV/JSON/Avro stockés dans vos espaces de stockage objets (S3, etc)
Announcing DuckDB 1.0.0 : Rien de nouveau hormis une étape importante du projet.
Command Line Data Processing: Using DuckDB as a Unix Tool : Pas envie de faire du awk/sed/grep/…, alors faites le en duckdb 😏
When and Why to Automate: A Data Engineer’s Perspective & Debugging Data Pipelines : hasard de publication mais une continuité logique : vous avez le quand, pourquoi et comment automatiser une tâche (data pipeline).

IoT

Raspberry Pi AI Kit available now at $70 - Même le Raspberry Pi 5 succombe à l’IA… - Sortie d’un Kit Raspberry Pi AI à base de M2 HAT et de l’accélérateur AI Hailo 8L : Même le RPI se met à l’IA
News from LoRaWAN Live Munich : Globalement, les déploiements s’intensifient et pour un usage princiapelemnt autour des mesures. Les fabricants comme STM ou Semtech proposent des cartes plus complètes et intégrées (SoC). Il y a des devices qui émergent pour des petits déploiements.

Python

SqlAlchemy 1.4 async ORM with FastAPI : en 2022, nous avions utilisé cet article comme base pour les projets FastAPI. Il couvrait de bout en bout ce que l’on attendait : SQLAlechmy, Alembic (migrations), Async et Tests. Le petit plus est sur le pattern du Repository, fort utile pour avoir une abstraction au dessus de la base de données.
Fast API — Repository Pattern and Service Layer : une version plus récente, rajoutant le concept de Service en plus de celui du Repository.
FastCRUD : Un meta-package qui vous embarque tout pour générer dynamiquement vos endpoints d’API sur la base de vos modèles de données.
FastHX, fastapi-htmx & Using HTMX with FastAPI : pour ceux qui veulent faire du FastAPI et du HTMX
FastUI : un projet de l’équipe de Pydantic pour générer des interfaces web à partir de votre code Python.
Summary of Major Changes Between Python Versions : Liste des principales évolutions et principaux apports d’une version majeure de Pytohn à une autre.
Adopt-Ruff : un outil pour trouver les règles Ruff que votre projet ne respecte pas encore en vue de pouvoir les ajouer au fur et à mesure.
Introduction to Polars : tout est dans le titre, une introduction à Polars.

Ops

Caddy 2.8.x (dernière version: 2.8.4 : quelques fonctionnalités supplémentaires au niveau de HTTP/3 ou des certificats, mais surtout un gros travail de nettoyage et de rationnalisation de code (dépendances dépréciées / non maintenues, etc).
Le projet Caddy-Docker-Proxy passe en version version 2.9.x en intégrant Caddy 2.8.

Time Series

Announcing the Private Beta of SenX SaaS Platform : SenX lance son offre SaaS pour la suite Warp10 (Warp 10, Discovery,etc) et des fonctionnalités dédiées/avancées/améliorées des produits existants.

Web

Queueing - An interactive study of queueing strategies : intéressant tant sur le fond que la forme sur la gestion des queues dans des requêtes HTTP et les différentes stratégies pouvant être mises en place.

Web, Ops, IoT et Time Series - Mai 2024

29/05/2024 aws s3 finops logs loki quickwit traefik reverse-proxy

Une édition un peu courte avec ce mois de Mai où j’étais plus ⛵️ que 👨‍💻

Cloud

How an empty S3 bucket can make your AWS bill explode : Le tout c’est de le savoir… AWS facture les requêtes non authorisées à vos buckets S3 (code 4XX). Amazon a réagi : les codes d’erreurs http ne seront pas facturés s’ils ne proviennent pas de votre compte/organisation AWS.
The AWS S3 Denial of Wallet Amplification Attack : dans la même veine, si on télécharge seulement une partie d’un fichier via la méthode RANGE, AWS facture le transfert de l’ensemble du fichier. Valable pour les buckets publics ou privés et s’applique surtout pour les gros fichiers (> 1Go)
S3 Is Showing Its Age : S3 a beau être le standard de facto au moins en terme d’API, il a néanmoins quelques manques au regard de ces concurrents.
FOCUS - The Unifying Specification for Cloud Billing Data : La FinOps Fondation est une émanation de la Linux Foundation. Elle vient de sortir la spécification FOCUS : FinOps Cost and Usage Specification (FOCUS™) dans l’objectif de pouvoir uniformiser et outiller une démarche FinOps.

Ops

Traefik 3.0 GA Has Landed: Here’s How to Migrate - Traefik 3.0: Deep Dive Into Wasm Support With Coraza WAF Plugin - Monitor Your Production at a Glance With Traefik 3.0 and OpenTelemetry - Traefik 3.0 With SPIFFE, Tailscale, and HTTP/3 : Traefik V3.0 est sorti avec son lot de nouveautés et des billets dédiés à chaque nouvelle fonctionnalité sont proposés. La migration se fait sans peine 😌
Benchmarking Quickwit vs. Loki : si vous ingérez des logs, vous avez surement entendu parler de Loki (édité par Grafana Labs) mais il y a aussi Quickwit. Ce benchmark réalisé par ces derniers montre les forces et faiblesses de chaque outil. En fonction de vos usages, il vous reste à choisir le plus adapté.

1 2 3 4 5