Case Study

Ares + Ceres

Harvesting open-data ed estrazione LLM come sistemi di raccolta complementari.

Coppia di repo attivi Rust Open Data Web Scraping REST API CLI
Confronto architetturale tra Ares e Ceres

Anatomia del sistema

  1. Input

    • Open-data portals (CKAN/DCAT)
    • Arbitrary web pages
    • JSON Schemas
    • Crawl session configs
  2. Core

    • Ceres: incremental sync engine
    • Ares: fetch + extract pipeline
    • Queue-driven workers
    • LLM extraction with retries
  3. Output

    • Catalog dumps + exports
    • Schema-validated rows
    • Change-detection events
    • Optional semantic index
Vincoli
  • Polite fetch behavior
  • Resumable runs
  • Schema-first contract
  • Two separate tools by design

Dataset pubblico

Ceres Open Data Index

apache-2.0 Snapshot 2026-06-21 Su Hugging Face

Portali principali

  1. data-europa-eu 689.6k
  2. catalog-data-gov 399.6k
  3. www-govdata-de 146.6k
  4. data-gov-au 135.3k
  5. dati.gov.it 64.5k
  6. ckan-publishing-service-gov-uk 56.4k

+ 41 altri portali · 362.6k dataset aggiuntivi

Apri su Hugging Face

Perché esiste

Harvesting e scraping sono contratti operativi diversi, e trattarli come se fossero la stessa cosa di solito peggiora entrambi i sistemi. Ceres riguarda la sincronizzazione rispettosa e ripetibile da portali open-data noti, mentre Ares riguarda l'estrazione di struttura da pagine web meno prevedibili, dove comportamento di fetch, drift di schema e retry devono essere parti esplicite del sistema.

Centro tecnico

Ceres si concentra sulla sincronizzazione incrementale dei portali e sulla durabilità del catalogo, mentre Ares si focalizza su pipeline di fetch, normalizzazione markdown, estrazione JSON Schema, retry ed esecuzione guidata da code. Separare i due tool mantiene onesta l'architettura: un lato ottimizza per freschezza ed esportabilità del catalogo, l'altro per run di estrazione controllati che sopravvivono a fallimenti parziali e a strutture di pagina che cambiano.

Prove correnti

La distinzione è già concreta nei README: Ceres offre sincronizzazione incrementale dei portali, modalità metadata-only, export e ricerca semantica opzionale, mentre Ares offre estrazione guidata da schema, change detection, queue worker, sessioni di crawl ed endpoint API protetti per orchestrare lo scraping. Insieme descrivono uno stack di raccolta in cui l'ingestion non è solo prendere byte, ma preservare la promessa operativa dietro ogni sorgente.