dott. ing. Francesco Guerra
last update: 19-08-13
L’insegnamento si compone di due parti: nella prima parte verranno presentate le principali architetture e piattaforme per la gestione di grandi quantitativi di dati, nella seconda parte verranno introdotte, spesso attraverso casi d’uso e applicazioni pratiche, tecniche per la ricerca e l’analisi di grandi quantitativi di dati.
Parte 1. Architetture e piattaforme per la gestione di Big Data
1.1 Algoritmi e piattaforme di Map Reduce (Algoritmi di MapReduce, Estensioni al Map Reduce, Modello di Costo)
1.2 La libreria Python Octo.py
1.3 La piattaforma Hadoop e il linguaggio Pig
Parte 2. Tecniche per la ricerca e l’analisi di Big Data
2.1 Analisi di dati mediante l’applicazione di Modelli statistici e di Data Mining. Casi d’uso presentati con l’ambiente di analisi statistica R e WEKA (Regressione, Classificazione Bayes, Decision Trees, Classification Rules, Association Rules)
2.2 Ricerca di elementi simili
2.2.1 Near-Neighbor Search
2.2.2 Locality-Sensitive Hashing for Documents
2.3 Text Analytics – la libreria Python nltk
2.4 Link analysis
2.4.1 Page Rank
2.4.2 Efficient computation
2.4.3 Topic- Sensitive PR
2.5 Frequent Itemsets
2.6 Sentiment Analysis (Caso d’uso – Analisi di Tweet)
2.7 Recommendation Systems
2.7.1 Content-Based Recommendations
2.7.2 Collaborative Filtering
2.8 Keyword search in sorgenti strutturate
Capitoli dai seguenti testi:
A. Anand Rajaraman, Jure Leskovec, Jeffrey D. Ullman: Mining of Massive Datasets, Cambridge University Press 2012
B. David M. Diez, Cristopher D Barr, Mine Centinkaya-Rundel: OpenIntro Statistics, 2012
C. Ian H. Witten, Eibe Frank, Mark A. Hall: Data Mining, Morgan Kauffman 2012
L'esame consiste di una prova scritta composta di domande a risposta aperta e esercizi (peso 2/3 del voto) e di un report (massimo 15-20 pagine) che descriverà l'applicazione di tecniche di analisi di dati a un caso reale.