Case Study

Ares + Ceres

Harvesting open-data ed estrazione LLM come sistemi di raccolta complementari.

Coppia di repo attivi Rust Open Data Web Scraping REST API CLI

Confronto architetturale tra Ares e Ceres

Anatomia del sistema

Input
- Open-data portals (CKAN/DCAT)
- Arbitrary web pages
- JSON Schemas
- Crawl session configs
Core
- Ceres: incremental sync engine
- Ares: fetch + extract pipeline
- Queue-driven workers
- LLM extraction with retries
Output
- Catalog dumps + exports
- Schema-validated rows
- Change-detection events
- Optional semantic index

Vincoli

Polite fetch behavior
Resumable runs
Schema-first contract
Two separate tools by design

Dataset pubblico

Ceres Open Data Index

apache-2.0 Snapshot 2026-06-21 Su Hugging Face

1.9M Dataset indicizzati 769.5k duplicati cross-portale rilevati
1.1M Unici dopo dedup
47 Portali open data
30 Paesi + internazionali

Portali principali

data-europa-eu 689.6k
catalog-data-gov 399.6k
www-govdata-de 146.6k
data-gov-au 135.3k
dati.gov.it 64.5k
ckan-publishing-service-gov-uk 56.4k

+ 41 altri portali · 362.6k dataset aggiuntivi

Apri su Hugging Face

Perché esiste

Harvesting e scraping sono contratti operativi diversi, e trattarli come se fossero la stessa cosa di solito peggiora entrambi i sistemi. Ceres riguarda la sincronizzazione rispettosa e ripetibile da portali open-data noti, mentre Ares riguarda l'estrazione di struttura da pagine web meno prevedibili, dove comportamento di fetch, drift di schema e retry devono essere parti esplicite del sistema.

Centro tecnico

Ceres si concentra sulla sincronizzazione incrementale dei portali e sulla durabilità del catalogo, mentre Ares si focalizza su pipeline di fetch, normalizzazione markdown, estrazione JSON Schema, retry ed esecuzione guidata da code. Separare i due tool mantiene onesta l'architettura: un lato ottimizza per freschezza ed esportabilità del catalogo, l'altro per run di estrazione controllati che sopravvivono a fallimenti parziali e a strutture di pagina che cambiano.

Prove correnti

La distinzione è già concreta nei README: Ceres offre sincronizzazione incrementale dei portali, modalità metadata-only, export e ricerca semantica opzionale, mentre Ares offre estrazione guidata da schema, change detection, queue worker, sessioni di crawl ed endpoint API protetti per orchestrare lo scraping. Insieme descrivono uno stack di raccolta in cui l'ingestion non è solo prendere byte, ma preservare la promessa operativa dietro ogni sorgente.

Ares pipeline

Fetch, normalize, extract, persist.

Ceres architecture

Harvest, catalog, search, and export.

Ceres repository Ares repository Related article

Metriche di prova

Prove pubbliche e concrete, legate al progetto invece che spinte nel grafo.

Published packages 9 packages on crates.io

ares-api v0.3.0 · ares-cli v0.3.0 · ares-client v0.3.0 · ares-core v0.3.0 · ares-db v0.3.0 · ceres-client v0.4.0 · ceres-core v0.4.0 · ceres-db v0.4.0 · ceres-search v0.4.0

Registry traction 2.1k downloads

2.1k lifetime downloads · 1.2k recent

Repository footprint 13 stars · 3 forks

Rust · topics: async, ckan, data-engineering, gemini-api

Latest push 2026-06-21

Default branch master

Selected releases 3 public releases

v0.4.0 (2026-05-21) · v0.3.5 (2026-03-30) · v0.3.1 (2026-03-06)

Segnali operativi

Segnali di workflow e runtime che restano accanto al sistema che descrivono.

CI med 1m 44s · p95 6m 5s

latest success · 86% success · 7 runs sampled