Guardrail per il ML Tabulare: la prospettiva di un Data Engineer su Data Leakage, Poisoning e Pipeline Fragili

La maggior parte dei fallimenti nelle pipeline ML non nasce da bug esotici del modello, ma da problemi di dati mai codificati come controlli. In questo articolo vediamo come costruire guardrail con pandas, Apache DataFusion, contratti dati e Arrow C Data Interface.

23 marzo 2026 · 13 minuti · 2673 parole · Andrea Bozzo
Profiling data attorno ad Apache Arrow

Progettare un Data Profiler attorno ad Apache Arrow: Lezioni da dataprof

Una storia di design di dataprof: perché ho costruito un profiler attorno ad Apache Arrow, come ha cambiato l’architettura, e come questo percorso mi ha portato a contribuire al lettore Parquet di arrow-rs.

5 febbraio 2026 · 12 minuti · 2493 parole · Andrea Bozzo