Il Data Scientist raccoglie i dati da diverse fonti. Ad esempio applicazioni di business come software ERP e CMR, banche dati, web analytics, social media, documenti elettronici, dati provenienti da sensori. Inoltre, struttura i dati eterogenei in formati organizzati ed accessibili. Quindi utilizza software per l'analisi dei dati, algoritmi, metodi statistici e strumenti di machine learning. Il Data Scientist riesce a navigare i database, ad interrogarli tramite query specifiche e ad estrarre le informazioni utili (data mining). In questo modo individua, all'interno di un gran numero di dati ininfluenti, soltanto quelle informazioni che rappresentano un valore per l'azienda.