Log management: che cosa è, a cosa serve e come si inserisce nell’ambito del RGPD

log

La gestione dei log

La gestione dei Log: che cosa è, a cosa serve e come si inserisce nell'ambito del RGPD

log
Di Rinaldo Piccolomini
06 Settembre, 2019 - 12.37

Premessa

La gestione dei log è un processo che consiste nella raccolta centralizzata di dati generati da ambienti operativi (dispositivi, applicazioni, database, in generale “sorgenti”) a fronte del manifestarsi di molteplici eventi di sistema alcuni dei quali di estrema rilevanza in chiave aziendale.

La raccolta dei dati di log può rendersi necessaria per diverse finalità quali:

  • La verifica di vulnerabilità
  • La gestione degli incidenti di sicurezza
  • Il controllo degli accessi ai dati e alle applicazioni
  • Il monitoraggio e l’allarmistica in tempo reale
  • La verifica di malfunzionamenti di natura applicativa
  • La gestione dei sistemi
  • Gli adempimenti normativi
  • L’analisi forense

Da un punto di vista normativo, la gestione dei log rappresenta una importante misura da intraprendere in osservanza ai principi fondamentali della protezione dei dati secondo quanto già stabilito dalla direttiva UE 95/46/EC e, successivamente, dagli obblighi introdotti dal Regolamento Generale sulla Protezione dei Dati Personali (RGPD o GDPR).

Si evidenzia come la gestione dei log rappresenti una misura proattiva in grado di prevenire eventi invasivi prima che essi accadano. Questo approccio risulta pienamente rispondente al principio della Privacy by Design per il quale si rende necessario intraprendere misure adeguate al fine di evitare che i rischi di violazioni si materializzino.

Problematiche da affrontare nella gestione dei log

La gestione dei log richiede un bilanciamento efficace tra la disponibilità dinamica delle risorse da mettere a disposizione e la quantità di dati di log sempre crescente. Inoltre, fin dalla prima fase di acquisizione dei data log, è necessario tenere in considerazione una serie di fattori, spesso causa di crescente complessità, che sono:

  • Il numero delle sorgenti di log da considerare
  • Il volume di data log generati
  • La varietà degli eventi che generano data log
  • La tipologia di data log
  • La modalità di acquisizione dei data log
  • L’adeguatezza dei sistemi a protezione dei data log

In ultimo, ma non certamente in ordine di importanza, è necessario considerare quei principi di riservatezza, integrità e disponibilità dei dati i quali, anche nel caso dei dati di log, devono essere rispettati onde evitare possibili inavvertite o intenzionali violazioni. A tal fine è opportuno fare qualche riflessione per comprendere quali possano essere le possibili soluzioni da adottare per consentire anche al personale incaricato della gestione dei log (responsabili di processo e/o amministratori di sistema) di poter intervenire nel pieno rispetto dei suddetti requisiti (https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/1577499).

Infrastruttura di Log Management

L’infrastruttura di gestione dei log è costituita da un insieme di componenti hardware, software e di rete opportunamente configurati per interagire tra loro. Le comunicazioni tra i componenti dell’infrastruttura di gestione dei log avvengono tipicamente nella medesima rete locale utilizzata per le principali funzioni aziendali. Tuttavia, è opportuno valutare la possibilità di effettuare la raccolta dei dati su una rete separata (fisicamente o logicamente) onde evitare che, a fronte di un incidente di waremal diffuso o altri attacchi di rete, i dati possano subire alterazioni o essere intercettati o eliminati. Nei casi in cui non fosse possibile tale scelta architetturale, è opportuno prevedere ulteriori accorgimenti come la crittografia dei dati.

In termini pratici, una infrastruttura di log management dovrebbe garantire il rispetto dei seguenti requisiti:

  1. contenere le informazioni utili allo scopo della raccolta secondo i principi di minimizzazione e proporzionalità;
  2. mantenere i dati inalterabili durante l’intero ciclo di vita;
  3. garantire l’integrità dei dati raccolti senza che subiscano alterazioni;
  4. conservare i dati per un periodo limitato (norme, politica di retention).

Processo

Le fasi tipiche della gestione dei log sono le seguenti:

Definizione e classificazione delle sorgenti di interesse

I dati di log possono essere acquisiti da diverse sorgenti presenti all’interno della rete aziendale. Pertanto, si rende necessario circoscrivere l’ambito di intervento alle sole sorgenti di interesse attraverso un censimento di tutti gli host di rete attivi secondo una opportuna classificazione che tenga conto delle finalità per le quali i dati richiedono di essere raccolti.

Individuazione degli events-log

Per ogni sorgente, in relazione ai servizi da essa erogati, è quindi necessario individuare gli eventi di interesse cercando di limitare la scelta a quelli che realmente hanno un peso prevalente rispetto agli scopi per cui vengono acquisiti (principio di minimizzazione).

Scelta della soluzione tecnologica per la gestione centralizzata dei dati di log

La scelta della soluzione tecnologica per la gestione dei log deve consentire l’efficiente e l’efficace gestione del processo nel rispetto di quei requisiti di completezza, integrità e inalterabilità del dato necessari ai fini della conformità della soluzione stessa.

Una possibile soluzione per la raccolta e l’analisi dei dati è basata sul prodotto Graylog compatibile con i sistemi di logging basati sia su Linux che Windows. La soluzione è dotata di funzionalità di configurazione per la raccolta centralizzata dei dati all’interno di specifici server. Essendo installato su un web server, Graylog consente di avere un’unica interfaccia attraverso la quale monitorare diverse sorgenti di log. Inoltre può essere configurato per inviare a un utente alert in presenza di eventi indesiderati. Il log file è basato su Linux e fornisce panoramiche giornaliere. Una volta filtrati gli eventi di log ordinari o, il sistema può anche inviare via email messaggi con i riassunti delle informazioni più importanti e segnalazioni di potenziali anomalie.

Raccolta dei dati di log mediante l’utilizzo di metodi senza agente e/o basati su agente

Per stabilire un protocollo di comunicazione che consenta al sistema centralizzato di raccogliere i dati di log dalle sorgenti ad esso collegate, è necessario effettuare una serie di configurazioni/installazioni sia in Graylog che all’interno della sorgente.
Per gli eventi provenienti da ambienti Unix like, Graylog è in grado di accettare e analizzare i messaggi in formato syslog, rsyslog, syslog-ng conformi agli standard RFC 5424 e/o RFC 3164 e supporta il trasporto via TCP e UDP.
Per registrare eventi a livello di applicazione, Graylog accetta il formato GELF mediante il quale è possibile ricevere i dati via http o direttamente dalla applicazione. In alternativa, è possibile utilizzare Heroku attraverso il quale è possibile inoltrare i dati di log della applicazione a un server syslog.
Per i sistemi Windows, Graylog raccomanda l’utilizzo di un agent opensource da installare direttamente sulla sorgente (es. client PC Windows) denominato NXLog.
Infine, è utile citare JSON, JSONPath, fluentd e logstash tra le altre soluzioni disponibili per la raccolta dei dati.

Conservazione dei dati di log originali (non elaborati, non modificati)

La conservazione è una fase di estrema importanza per le implicazioni che ha da un punto di vista normativo, investigativo e di sicurezza. Un sistema di log management per essere adeguato richiede che la conservazione dei dati di log sia tale da preservare l’informazione in essi contenuta senza che questa possa subire alterazioni di sorta entro il periodo prestabilito dalla politica di retention. Superato il periodo di conservazione prestabilito, i dati potranno poi essere eliminati per lasciare posto a quelli più recenti (log rotation).

Analisi e monitoraggio dei dati di log

L’analisi è una fase piuttosto impegnativa del processo ma anche una delle più importanti in quanto consente di circoscrivere l’ambito ai soli dati che hanno rilevanza ai fini degli scopi per cui vengono raccolti. Questa operazione può risultare complessa a causa della eterogeneità dei dati rispetto alle diverse sorgenti nonché per la complessità della sintassi dei record generati per evento. In relazione alle scelte fatte, i software di log management e, più specificatamente di Security Information & Event Management (SIEM), consentono poi di predisporre dei meccanismi di filtraggio attraverso i quali riconoscere e fornire risposte automatiche in presenza di eventi indesiderati. La qualità e il livello delle risposte non sempre risulta attendibile (problema dei falsi positivi) dopo le prime configurazioni, per cui è spesso necessario procedere per fasi successive andando a ricalibrare le scelte precedentemente effettuate.

Durante le fasi di monitoraggio dei dati di log è opportuno effettuare una serie di verifiche rispetto a:

  1. Volume del traffico degli eventi ricevuti
  2. Numero dei dispositivi controllati
  3. Stato e statistiche degli incidenti o dei casi rilevati
  4. Numero delle regole di correlazione attive
  5. Funzionamento del sistema di notifica e escalation