16.01.2026
Riconoscere i serbatoi nelle immagini satellitari grazie al deep learning

Nel settore petrolifero e dei carburanti, quando si parla di metano, un gas serra potente, è importante individuare dove sono davvero i serbatoi: su territori vasti, spesso senza coordinate affidabili o inventari completi, diventa un passaggio operativo per capire dove intervenire e come monitorare le emissioni. Gli autori di un recente report scientifico del 18 dicembre 2025 partono proprio da qui: l’identificazione accurata dei serbatoi nelle immagini di telerilevamento è utile per puntare le sorgenti di emissione e supportare strategie di mitigazione.

Il punto, però, è che riconoscere un serbatoio in una foto satellitare non è affatto un compito semplice di visione: dall’alto, i serbatoi appaiono spesso come forme circolari chiare, con ombre e riflessi che cambiano in base a ora del giorno, angolo di ripresa e condizioni atmosferiche. E il mondo reale, visto dall’alto, è pieno di cerchi ingannevoli, come stadi, rotatorie, piazzali, vasche, strutture industriali che possono assomigliare a un serbatoio più di quanto piacerebbe a un modello di riconoscimento. La conseguenza è il doppio problema tipico di questi sistemi: da una parte i falsi positivi. ossia scambiare qualcos’altro per un serbatoio, dall’altra le mancate rilevazioni, soprattutto quando l’oggetto è piccolo rispetto alla risoluzione dell’immagine o quando nell’inquadratura convivono serbatoi grandi e serbatoi piccoli.

Negli ultimi anni la risposta standard a compiti di questo tipo è stata il deep learning e, in particolare, famiglie di modelli one-shot veloci come YOLO. Ma il paper insiste su un dettaglio che, in remoto sensing, pesa tantissimo: i serbatoi spesso sono piccoli e la dimensione ridotta manda in crisi sia l’apprendimento delle feature multi-scala sia i meccanismi di regressione della bounding box. In altre parole, non è solo un tema di capire cosa c’è nell’immagine, ma di disegnare bene il contorno in modo stabile durante l’addestramento, senza che minime variazioni di posizione facciano crollare i segnali di ottimizzazione.

La proposta degli autori è interessante proprio perché propone un accoppiamento di scelte geometriche e scelte architetturali. La prima scelta è quasi intuitiva quando la si legge, ma non lo è affatto nella pratica dei detector: se il target è (quasi sempre) circolare, perché continuare a inscatolarlo con rettangoli? L’articolo introduce quindi l’uso di bounding box circolari, costruite come cerchi inscritti nei rettangoli delle annotazioni originali. Nel paper viene mostrato e dimostrato che, per piccoli spostamenti, l’Intersection over Union (IoU) dei rettangoli può variare in modo più brusco, mentre l’IoU tra cerchi equivalenti risulta più regolare, cioè meno sensibile a micro-offset. Questo dettaglio è cruciale perché l’IoU è una delle grandezze che guidano la loss: se oscilla troppo, l’addestramento penalizza in modo irragionevole i piccoli oggetti e finisce per scartarli più facilmente.

La seconda scelta lavora sul contesto: pr distinguere un serbatoio vero da una forma circolare simile, spesso serve guardare anche attorno all’oggetto, non solo dentro il suo contorno. Ma aumentare il receptive field in modo statico può introdurre rumore e far perdere dettagli dei piccoli target. Qui entra il Large Selective Kernel (LSK), un modulo che combina convoluzioni con campi recettivi diversi e, soprattutto, seleziona dinamicamente quanto allargare lo sguardo in base a ciò che vede, cercando un equilibrio fra preservare i dettagli dei piccoli oggetti e sfruttare il contesto quando serve davvero. Nel lavoro, l’LSK viene integrato nel backbone di YOLO-v10 sostituendo un blocco della rete con un LSKBlock, così da rendere questo adattamento parte dell’ottimizzazione end-to-end.

La parte più concreta del report, però, è come gli autori costruiscono la prova sperimentale: non si appoggiano a un singolo dataset, ma assemblano un dataset composito prendendo immagini e annotazioni da quattro collezioni note nel remote sensing (DIOR, NWPUU_RESISC45, NWPU VHR-10, TGRS-HRRSD) e aggiungendo un dataset self-built. In totale, la base di valutazione arriva a 3.568 immagini e 46.075 serbatoi annotati, con una ripartizione train/validation/test di 7:2:1. È un numero che conta perché, per i piccoli oggetti, la varietà di scene e scale spesso decide quanto un modello regge nel mondo reale.

Gli autori spiegano che, nel formato YOLO classico, le label sono (x, y, w, h), mentre qui diventano (x, y, r): centro e raggio. Il raggio è definito come metà del lato più corto del rettangolo, cioè il cerchio inscritto. Inoltre, per ridurre bias nelle situazioni più difficili, descrivono una revisione manuale e correzioni semi-automatizzate in caso di occlusioni parziali, con l’esclusione dei casi di occlusione severa sotto una certa soglia di visibilità. È un dettaglio importante perché, nel remote sensing, le etichette non sono un dato perfetto ma parte del problema.

Anche la parte meccanica del detector viene adattata: se le box diventano cerchi, anche gli anchor (quando usati come struttura iniziale di ottimizzazione) devono diventare ancore circolari, quindi set di raggi rappresentativi stimati con clustering (K-Means sui raggi delle ground truth). E soprattutto cambia la loss: gli autori introducono una CircleLoss focalizzata su coordinate del centro, raggio e IoU fra cerchi, con formulazioni coerenti alla geometria del problema, in un contesto di single-class detection (serbatoi) dove la classificazione è meno centrale della localizzazione pulita.

Arriviamo ai risultati: implementata su YOLO-v10, la combinazione cerchi + LSK raggiunge precision 0,911, recall 0,902 e mAP@0.5 pari a 0,931 sul dataset composito. Gli autori sottolineano il guadagno rispetto al baseline YOLO-v10 (mAP@0.5 0,915), con incrementi che sono rilevanti perché ottenuti su un task notoriamente difficile come il rilevamento di piccoli oggetti in contesti complessi.

Il confronto con altri metodi, riportato in tabella, serve soprattutto a collocare il risultato: modelli classici come RetinaNet, Faster R-CNN e SSD e soluzioni più recenti come MADnet e YOLO-v7 con CBAM vengono superati sulle metriche principali, mentre YOLO-v10 resta il riferimento più vicino e viene comunque migliorato. È un tipo di confronto che va letto con attenzione, perché qui c’è anche una differenza di forma dell’output (rettangoli contro cerchi) che cambia la natura della localizzazione, ma la direzione del messaggio è chiara: la geometria del target, quando è stabile e ripetitiva, può diventare un vantaggio se la rispettiamo nel design del modello.

Ma parliamo dell’ablazione, perché chiarisce cosa fa davvero la differenza: se si aggiunge solo il bounding box circolare a YOLO-v10, precision e recall migliorano, e mAP@0.5 sale a 0,919; se si aggiunge solo LSK, la precision cresce e il mAP@0.5 arriva a 0,923; quando si mettono insieme entrambi gli elementi, si arriva al 0,931. È un segnale tipico dei lavori ben costruiti, due interventi che si sommano perché agiscono su due cause diverse dell’errore (instabilità di regressione e uso del contesto).

Nel confronto di complessità, il modello proposto ha più layer (471 contro 385), ma meno parametri e meno GFLOPs (e persino più FPS nel test riportato: 78 contro 74). Non è sempre così quando si aggiungono moduli, quindi è un risultato che suggerisce una scelta architetturale attenta nel modo in cui l’LSK è inserito e in come l’intero backbone viene ribilanciato.

Gli autori, però, riconoscono limiti abbastanza netti: la specificità verso oggetti circolari rende il metodo meno generalizzabile a target non circolari e l’LSK aggiunge complessità che può pesare in certi scenari o hardware. Inoltre, discutono casi di errore legati alla distribuzione dei dati: se nel training set i serbatoi sono prevalentemente chiari e se mancano esempi di cerchi scur”, il modello può confondere strutture circolari scure con serbatoi, proprio perché il contesto statistico non lo educa a distinguere bene quella variabilità. In remote sensing, la qualità e la varietà delle immagini e delle label contano quasi quanto l’architettura.

Il senso complessivo della ricerca è che, per monitorare infrastrutture energetiche dall’alto, non basta prendere un detector generalista e sperare che si adatti: quando il target ha una geometria ricorrente e quando l’errore nasce da instabilità della regressione e dal rumore del contesto, conviene spostare il progetto del modello verso quella realtà fisica, come cerchi invece di rettangoli e un contesto modulato invece di un receptive field fisso. Il risultato è un passo verso sistemi più affidabili per mappare dove sono i serbatoi e, quindi, dove ha senso concentrare misure e mitigazioni in un settore in cui il metano resta un nodo climatico serio.