Case Study

Peek-a-Boo

Un agente AI minimalista per ricerca chirurgica e estrazione su file.

Prototipo focalizzato Python CLI Agent Tooling Code Audit Gemini
Esempio di run di una mission Peek-a-Boo

Anatomia del sistema

  1. Input

    • Target codebase tree
    • Natural-language mission
    • Token + step budgets
    • Allowed tool surface
  2. Core

    • Python agent loop
    • Focused grep / ls primitives
    • Mission-shaped prompts
    • Bounded traversal
  3. Output

    • Answers with evidence paths
    • Run telemetry
    • Token-cost summary
    • Reproducible benchmark runs
Vincoli
  • Small tool surface by design
  • Hard step + token caps
  • No embeddings
  • No whole-repo context

Perché esiste

Molti task di ricerca su codice non hanno bisogno di un embedding dell'intero repo o di un prompt gigante, hanno bisogno di un agente economico che possa fare domande più ristrette in sequenza. Peek-a-Boo esiste per quella classe di lavoro stretta ma comune: trovare i file rilevanti, ispezionare giusto il contesto necessario e produrre una risposta senza trasformare l'intero repository in input per il modello.

Centro tecnico

Peek-a-Boo mantiene la superficie degli strumenti intenzionalmente piccola, appoggiandosi a operazioni in stile grep e a traversal focalizzati, così il modello spende token sulla sintesi invece che sul contesto grezzo del repository. Il vincolo è il prodotto: limitando le azioni disponibili e delimitando la ricerca, l'agente deve comportarsi più come un revisore di codice attento che come un sintetizzatore generico.

Prove correnti

Il progetto si comporta già come un prototipo a forma di benchmark: quattro mission built-in, una codebase target generata, limiti di sicurezza che impediscono esplosioni di token e una superficie di strumenti volutamente stretta che rende l'argomento del risparmio di token ispezionabile nel codice e non solo nella prosa. Questo lo rende un esperimento utile sull'ergonomia degli agenti, perché il criterio di successo non è l'astuzia del modello in astratto, ma se il loop dello strumento trovi le giuste evidenze con meno spreco di contesto.