Andrea Bozzo | Blog

👋 Benvenuto nel mio blog tecnico!

Scrivo di Data Engineering, Rust, Go, Python e tecnologie open source.

Esploro architetture lakehouse, streaming real-time e il mondo dei dati moderni.

dlt + dbt su un Solo Unity Catalog (e Perché Non Sono 'Due DLT')

Ingestion Python-native con dlt (dlthub), trasformazione SQL con dbt e un singolo schema Unity Catalog come contratto tra i due. Note dal cablarli insieme su un workspace Databricks reale — inclusa la collisione di nomi che mi ha morso nel codice vero.

Brain e Brain UI: una Knowledge Base che è Davvero Tua

Brain è una knowledge base Markdown versionata in Git. Brain UI è il control plane Rust/Leptos che ci sta sopra. Questo è il sistema, il legame tra le due metà, una tassonomia reale config-driven, e le ragioni oneste per cui metto il core in chiaro.

Un sito, fatto a mano - cover del walkthrough

Costruire il Mio Mini-Sito Personale come un Progetto Vero

Come ho ricostruito il mio sito personale come un sistema statico versionato e riproducibile, con una separazione chiara fra landing page, blog, generatori e una piccola API Go companion.

FinOps per Piattaforme Dati AI nel 2026: Databricks vs AWS-Native vs Iceberg DIY sul Tuo Warehouse

Tre stack lakehouse per aggiungere AI/ML e streaming sopra un warehouse esistente, confrontati con una lente FinOps: DBU, DPU, TB scansionati, S3 GB-mese ed egress, applicati a workload reali con i prezzi 2026.

Zero Grappler: Pensare per Data-Pipeline su un Microcontrollore (Appunti Bozza prima dell'arrivo dell'hardware)

Zero Grappler è un piccolo crate no_std che applica la mentalità delle pipeline di dati all’ML embedded: tre tratti, due task async, dimensionamento dei buffer a tempo di compilazione, zero allocazioni. Questo post riguarda le scelte di design — non è ancora un report sull’hardware. Lo smoke test su silicio reale con il Pico 2 W è ancora davanti a me.

Lance Format e LanceDB: Storage Columnar per l'Era degli Embedding

Lance è un formato di storage columnar costruito per i workload di machine learning — accesso casuale veloce, indicizzazione vettoriale nativa e integrazione Arrow zero-copy. Questo articolo esplora il formato stesso, come LanceDB ci costruisce sopra, e come l’ho collegato a uno stream NATS live per costruire un layer di ricerca semantica su eventi in tempo reale.

Guardrail per il ML Tabulare: la prospettiva di un Data Engineer su Data Leakage, Poisoning e Pipeline Fragili

La maggior parte dei fallimenti nelle pipeline ML non nasce da bug esotici del modello, ma da problemi di dati mai codificati come controlli. In questo articolo vediamo come costruire guardrail con pandas, Apache DataFusion, contratti dati e Arrow C Data Interface.

1 Anno di Claude Code: Un'Intervista

Claude intervista Andrea Bozzo su un anno intero di utilizzo di Claude Code nel terminale — il workflow, le custom skill, gli spigoli vivi e il database distrutto.

Harvesting vs Scraping: Costruire Entrambi i Lati in Rust con Ares e Ceres

Due progetti Rust, una divisione concettuale. Ares recupera pagine web arbitrarie e usa LLM per estrarre dati strutturati; Ceres raccoglie metadati da portali CKAN e li indicizza semanticamente. Insieme mostrano il passaggio da script di scraping a pipeline dati production-ready.

Progettare un Data Profiler attorno ad Apache Arrow: Lezioni da dataprof

Una storia di design di dataprof: perché ho costruito un profiler attorno ad Apache Arrow, come ha cambiato l’architettura, e come questo percorso mi ha portato a contribuire al lettore Parquet di arrow-rs.