Guardrail per il ML Tabulare: la prospettiva di un Data Engineer su Data Leakage, Poisoning e Pipeline Fragili

La maggior parte dei fallimenti nelle pipeline ML non nasce da bug esotici del modello, ma da problemi di dati mai codificati come controlli. In questo articolo vediamo come costruire guardrail con pandas, Apache DataFusion, contratti dati e Arrow C Data Interface.

23 marzo 2026 · 13 minuti · 2673 parole · Andrea Bozzo
Harvesting vs Scraping

Harvesting vs Scraping: Costruire Entrambi i Lati in Rust con Ares e Ceres

Due progetti Rust, una divisione concettuale. Ares recupera pagine web arbitrarie e usa LLM per estrarre dati strutturati; Ceres raccoglie metadati da portali CKAN e li indicizza semanticamente. Insieme mostrano il passaggio da script di scraping a pipeline dati production-ready.

20 febbraio 2026 · 15 minuti · 3004 parole · Andrea Bozzo
Mosaico Logo

Mosaico: La Piattaforma Dati per Robotica e Physical AI scritta in Rust

Un’esplorazione approfondita di Mosaico, la piattaforma dati per robotica scritta in Rust: architettura client-server, ontologie semantiche, data-oriented debugging ed il mio viaggio in esso, l’integrazione con Data Contract Engine.

6 gennaio 2026 · 18 minuti · 3820 parole · Andrea Bozzo
Ceres Logo

Ceres: Semantic Search per i Dati Aperti

Ceres è un motore di ricerca semantico per portali CKAN. Costruito in Rust con Tokio e PostgreSQL+pgvector, affronta il gap tra come le persone cercano e come le PA nominano i dataset.

20 dicembre 2025 · 7 minuti · 1472 parole · Andrea Bozzo
Polars - Extremely Fast DataFrames

Chiudere il Cerchio Rust: Analisi Dati ad Alte Prestazioni con Polars

Polars completa l’ecosistema Rust data engineering: lazy evaluation, Apache Arrow, e integrazione nativa con Iceberg V3 per analytics performanti che competono con cluster distribuiti. Il terzo pilastro dello stack RisingWave + Lakekeeper + Polars.

3 dicembre 2025 · 26 minuti · 5400 parole · Andrea Bozzo
Lakekeeper Architecture Overview

Lakekeeper: il Catalogo REST di Apache Iceberg scritto in Rust

Un’esplorazione di Lakekeeper, il catalogo REST Iceberg in Rust che completa l’ecosistema data engineering: sicurezza enterprise con vended credentials, multi-tenancy, e integrazione con RisingWave per costruire streaming lakehouse senza JVM

22 novembre 2025 · 10 minuti · 2060 parole · Andrea Bozzo
RisingWave Architecture

RisingWave e Iceberg-Rust: Quando il Real-Time Streaming Incontra il Modern Data Lake

La partnership tra RisingWave e Iceberg-Rust rappresenta una finestra su dove sta andando il data engineering moderno: streaming CDC real-time, hybrid delete strategy intelligente, e un ecosistema Rust performante che sfida il dominio JVM.

10 novembre 2025 · 9 minuti · 1765 parole · Andrea Bozzo