Big Data Analysis

dott. ing. Francesco Guerra

last update: 19-08-13


Obiettivi

Il quantitativo di dati che Internet mette a disposizione di ciascuno di noi attraverso siti istituzionali e governativi (nella forma di open data, government open, e sorgenti dati liberamente accessibili) e piattaforme di social networking (Facebook, Twitter, …), è enorme. In questo momento, si parla di “data science” per indicare un campo di ricerca emergente nel quale sono studiate e applicate tecniche per estrarre informazioni, analizzare i contenuti e scoprire nuova conoscenza da sorgenti dati di grandi dimensioni (big data) al fine di ottenere un vantaggio competitivo. La “data science” ha quindi una importanza cruciale sia per il mondo del lavoro sia per quello della ricerca. Il corso intende avere un orientamento prettamente pratico e prevede una serie di attività laboratoriali e progettuali attraverso le quali verranno introdotte e analizzate le tecniche fondamentali di analisi di big data che includono algoritmi per la gestione di dati (e.g., MapReduce), algoritmi di data mining e di modellazione statistica. Il corso prevede l’uso dell’ambiente di analisi statistica R, dell’ambiente WEKA, dell’ambiente Hadoop e lo sviluppo di semplici programmi con il linguaggio Python. Attraverso questo corso gli studenti saranno in grado di:

Programma (provvisorio)

L’insegnamento si compone di due parti: nella prima parte verranno presentate le principali architetture e piattaforme per la gestione di grandi quantitativi di dati, nella seconda parte verranno introdotte, spesso attraverso casi d’uso e applicazioni pratiche, tecniche per la ricerca e l’analisi di grandi quantitativi di dati.

Parte 1. Architetture e piattaforme per la gestione di Big Data
1.1 Algoritmi e piattaforme di Map Reduce (Algoritmi di MapReduce, Estensioni al Map Reduce, Modello di Costo)
1.2 La libreria Python Octo.py
1.3 La piattaforma Hadoop e il linguaggio Pig

Parte 2. Tecniche per la ricerca e l’analisi di Big Data
2.1 Analisi di dati mediante l’applicazione di Modelli statistici e di Data Mining. Casi d’uso presentati con l’ambiente di analisi statistica R e WEKA (Regressione, Classificazione Bayes, Decision Trees, Classification Rules, Association Rules)
2.2 Ricerca di elementi simili
      2.2.1 Near-Neighbor Search
      2.2.2 Locality-Sensitive Hashing for Documents
2.3 Text Analytics – la libreria Python nltk
2.4 Link analysis
      2.4.1 Page Rank
      2.4.2 Efficient computation
      2.4.3 Topic- Sensitive PR
2.5 Frequent Itemsets
2.6 Sentiment Analysis (Caso d’uso – Analisi di Tweet)
2.7 Recommendation Systems
      2.7.1 Content-Based Recommendations
      2.7.2 Collaborative Filtering
2.8 Keyword search in sorgenti strutturate

Testo

Slide fornite dal docente.

Capitoli dai seguenti testi:
A. Anand Rajaraman, Jure Leskovec, Jeffrey D. Ullman: Mining of Massive Datasets, Cambridge University Press 2012
B. David M. Diez, Cristopher D Barr, Mine Centinkaya-Rundel: OpenIntro Statistics, 2012
C. Ian H. Witten, Eibe Frank, Mark A. Hall: Data Mining, Morgan Kauffman 2012

Modalità di valutazione

L'esame consiste di una prova scritta composta di domande a risposta aperta e esercizi (peso 2/3 del voto) e di un report (massimo 15-20 pagine) che descriverà l'applicazione di tecniche di analisi di dati a un caso reale.

Materiale didattico --> sito dolly


web analytics