Big Data applicato: Spark vs Flink

Si presume che gli eventi anomali siano nella “coda lunga” dell’istogramma. Ma ha davvero senso? Analizziamolo.

In questo caso, alcuni parametri categorici (IP, porta) sono stati considerati come numerici per il calcolo. Abbiamo deciso di farlo per aumentare la dimensionalità e avvicinarci a un problema reale. Ma questo è ciò che otteniamo quando mostriamo tutti i valori reali delle distanze:

Questo è rumore, poiché questi valori (IP, porta, fonte e destinazione) falsano il calcolo. Tuttavia, quando eliminiamo questi campi ed elaboriamo di nuovo tutto, mantenendo:

durata
in_bytes
in_packets
out_bytes
out_packets

Abbiamo la seguente distribuzione:

La coda lunga non è più così popolata e c’è qualche picco alla fine. Se mostriamo i valori del calcolo della distanza, possiamo vedere dove sono i valori anomali.

Grazie a questo semplice perfezionamento facilitiamo il lavoro dell’analista, offrendogli un potente strumento, risparmiando tempo e indicando dove trovare i problemi di una rete.

Conclusioni

Anche se si potrebbe discutere un’infinità di possibilità e conclusioni, la conoscenza più notevole ottenuta durante questo piccolo sviluppo è:

Quadro di elaborazione. Non è banale passare da un framework all’altro, quindi è importante fin dall’inizio decidere quale framework verrà utilizzato e conoscere molto bene le sue particolarità. Per esempio, se abbiamo bisogno di processare un evento istantaneamente e questo è critico per il business, dobbiamo selezionare un motore di elaborazione che soddisfi questo requisito.
Big Picture. Per certe caratteristiche, un motore si distinguerà dagli altri, ma cosa siete disposti a sacrificare per ottenere questa o quella caratteristica? Gestione della memoria, CPU, disco… È importante applicare stress test, benchmark, ecc. al sistema per sapere come si comporterà nel suo insieme e identificare possibili punti deboli e colli di bottiglia
Caratteristiche e contesto. È essenziale prendere sempre in considerazione il contesto specifico e sapere quali caratteristiche devono essere introdotte nel sistema. Abbiamo usato parametri come le porte o gli IP nel calcolo delle distanze per cercare di individuare anomalie in una rete. Queste caratteristiche, nonostante siano numeriche, non hanno un senso spaziale tra loro. Tuttavia, ci sono modi per sfruttare questo tipo di dati, ma lo lasciamo per un post futuro.

Questo post è stato originariamente pubblicato su https://www.gradiant.org/noticia/big-data-aplicado-spark-vs-flink/

Grazie a Adrián Portabales ( adrianp )

Universe

Big Data applicato: Spark vs Flink

Architettura Kappa

Si sporcano le mani

Eventi Netflow

Parte condivisa

Parte specifica di ogni Framework

Results

Eventi multipli nella stessa finestra

Eventi multipli in finestre diverse

E che dire del calcolo?

Conclusioni

Leave a Reply Cancel