IL DATA MINING E L’OTTIMIZZAZIONE DEI PROCESSI AZIENDALI

Giugno 19, 2019

Il data mining è quel processo iterativo che ha come obiettivo quello di scoprire e identificare le relazioni nel dataset o nel flusso di dati preso in esame, attraverso metodi manuali o automatici. Tale analisi si divide in due tipi di attività: l’analisi predittiva e quella descrittiva.

Non è corretto pensare che una teoria sia meglio dell’altra, anzi, i risultati delle due attività sono complementari al raggiungimento dello stesso scopo. Mentre l’analisi descrittiva si ferma a trovare i pattern e altre nuove informazioni, la predittiva permette di produrre un modello eseguibile sotto forma di codice, utile alla predizione, estimazione e identificazione di un processo. Per farla semplice, quindi, il data mining riguarda l’attività che viene svolta sui big data per renderli intelligibili a tutti e per trarre da essi informazioni predittive utili a chi le ha richieste. Le principali tecniche del data mining sono:

classificazione: è l’attività che prevede di scoprire la funzione che, a sua volta, permette di etichettare il dato di una classe. Alcuni algoritmi sono la classificazione Bayesiana, la classificazione statistica o la cosiddetta foresta casuale. Un tipo di classificatori sono gli alberi decisionali che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento
regressione: si tratta di trovare la funzione che associa una variabile dipendente con una o più indipendenti. Tale variabile dipendente è funzionale, lineare o di più gradi polinomiali rispetto alle indipendenti, più il valore di errore. Il metodo più usato è quello dei minimi quadrati
clustering: è l’attività che permette di identificare una serie di categorie, o appunto cluster, che dividono il dataset
associazione: è la scoperta di nessi casuali, ma ricorrenti, estrapolabili dai dati racchiusi in una banca dati, finalizzata ad esempio al rilevamento di anomalie

ESTRAZIONE DELLE INFORMAZIONI

Il data mining può essere visto come l’unione di due scienze, le scienze statistiche e il machine learning. È definibile come un processo che permette di scovare modelli e descrizioni a partire da un dataset. Tale processo non può essere un’applicazione di metodi di machine learning e tool statistici presi a caso, anzi, deve essere un processo ben pianificato e strutturato, in modo tale da risultare utile e pienamente descrittivo del sistema preso in esame. Tale piano di estrazione delle informazioni di solito segue una procedura sperimentale di cinque passi:

definizione del problema e formulazione delle ipotesi: l’identificazione del modello è più efficiente se il contesto su cui funziona l’applicazione è ben definito, perciò un’ottima conoscenza ed esperienza è necessaria per definire al meglio il problema su cui lavorare
collezione dei dati: in questa fase ci si sofferma su come il dato viene generato e poi su come lo si può collezionare. In genere, ci si può agganciare a due possibili approcci. Il primo è quello del design of experiment, in cui l’esperto ha il controllo sulla generazione dei dati. Infatti, si va ad influenzare il sistema in modo da studiare in maniera isolata, e in una variabile di risposta, l’effetto scaturito. Il secondo approccio, invece, non prevede la possibilità di influenzare il sistema ed è definito come observational study. Esso riguarda, esclusivamente l’osservazione del dato, senza conoscerne la causa generatrice
pre-elaborazione del dato: di solito, con l’approccio di osservazione, i dati derivano da database e altri storage. Il data preprocessing, quindi, include almeno due attività. La rilevazione e rimozione degli outlier, dati anomali per il contesto e scorrelati da altri dati osservati, e la distribuzione delle soglie dei valori, scalati in modo tale che tutte le variabili possano avere lo stesso peso
estimazione del modello: in questa fase si seleziona la metodologia che fornisca il miglior modello che possa, a sua volta, rappresentare il caso in questione
interpretazione del modello e studio delle prestazioni: la possibilità di interpretare un modello non dipende dalla sua accuratezza, difatti i modelli più semplici sono i più interpretabili, ma sono anche quelli meno accurati. Questo perché, un modello costruito con il data mining, a volte, deve essere interpretato per facilitare l’interpretazione umana ad attuare delle strategie. Per migliorare l’user experience è necessario ottimizzare e rendere comprensibili questi risultati

Queste fasi non sono indipendenti, ovvero il processo di data mining prevede necessariamente un approccio iterativo. Grazie all’osservazione dei risultati ottenuti da una certa fase, si può rielaborare il dataset in modo da risolvere il problema preposto.

PERCHÉ IL DATA MINING È IMPORTANTE

I settori di applicazione del data mining sono innumerevoli, ma raggruppabili in alcune macrocategorie. Di seguito elencheremo i principali settori e i vantaggi che il data mining può apportare per ognuno di essi.

MARKETING

Economia e finanza

Scienza

Tecnologie dell’informazione e della comunicazione (ICT)

Statistica

Industria

Cerchi partner per progetti ICT? Chiedi a PMF Research compilando il contact form