đź‘‹ Benvenuto nel mio blog tecnico!
Scrivo di Data Engineering, Rust, Go, Python e tecnologie open source.
Esploro architetture lakehouse, streaming real-time e il mondo dei dati moderni.
đź‘‹ Benvenuto nel mio blog tecnico!
Scrivo di Data Engineering, Rust, Go, Python e tecnologie open source.
Esploro architetture lakehouse, streaming real-time e il mondo dei dati moderni.

La maggior parte dei fallimenti nelle pipeline ML non nasce da bug esotici del modello, ma da problemi di dati mai codificati come controlli. In questo articolo vediamo come costruire guardrail con pandas, Apache DataFusion, contratti dati e Arrow C Data Interface.

Claude intervista Andrea Bozzo su un anno intero di utilizzo di Claude Code nel terminale — il workflow, le custom skill, gli spigoli vivi e il database distrutto.

Due progetti Rust, una divisione concettuale. Ares recupera pagine web arbitrarie e usa LLM per estrarre dati strutturati; Ceres raccoglie metadati da portali CKAN e li indicizza semanticamente. Insieme mostrano il passaggio da script di scraping a pipeline dati production-ready.

Una storia di design di dataprof: perché ho costruito un profiler attorno ad Apache Arrow, come ha cambiato l’architettura, e come questo percorso mi ha portato a contribuire al lettore Parquet di arrow-rs.

Un’esplorazione tecnica di async/await in Python e Rust: come la stessa sintassi nasconda modelli di esecuzione completamente diversi, con esempi pratici da contributi a Tokio e progetti Python.
Un’esplorazione approfondita di Mosaico, la piattaforma dati per robotica scritta in Rust: architettura client-server, ontologie semantiche, data-oriented debugging ed il mio viaggio in esso, l’integrazione con Data Contract Engine.

Ceres è un motore di ricerca semantico per portali CKAN. Costruito in Rust con Tokio e PostgreSQL+pgvector, affronta il gap tra come le persone cercano e come le PA nominano i dataset.
Polars completa l’ecosistema Rust data engineering: lazy evaluation, Apache Arrow, e integrazione nativa con Iceberg V3 per analytics performanti che competono con cluster distribuiti. Il terzo pilastro dello stack RisingWave + Lakekeeper + Polars.

Un’esplorazione di Lakekeeper, il catalogo REST Iceberg in Rust che completa l’ecosistema data engineering: sicurezza enterprise con vended credentials, multi-tenancy, e integrazione con RisingWave per costruire streaming lakehouse senza JVM

La partnership tra RisingWave e Iceberg-Rust rappresenta una finestra su dove sta andando il data engineering moderno: streaming CDC real-time, hybrid delete strategy intelligente, e un ecosistema Rust performante che sfida il dominio JVM.