Data Scientist v Data Engineer, qual è la differenza?

Specialisti dei dati e ingegneri dei dati potrebbero essere nuovi titoli di lavoro, ma i ruoli chiave del lavoro sono in circolazione da un po 'di tempo. Tradizionalmente, chiunque analizzi i dati viene chiamato "analista di dati" e diventa un "sviluppatore di Business Intelligence (BI)", che crea una piattaforma di back-end per supportare l'analisi dei dati.

Con l'avvento dei big data, sono emersi nuovi dati in aziende e centri di ricerca - data scientist e data engineer.

Ecco una breve panoramica del ruolo di Data Analyst, Programmatore BI, Data Specialist e Data Engineer.

Analista dei dati

Gli analisti di dati sono professionisti con esperienza con la capacità di interrogare ed elaborare i dati nella loro organizzazione, di riferire, riassumere e visualizzare i dati. Sanno come utilizzare gli strumenti e le tecniche esistenti per risolvere i problemi e aiutare le persone in tutta l'azienda a comprendere query specifiche utilizzando report e pianificazioni ad hoc.

Tuttavia, non ci si aspetta che si occupino di analisi dei big data e di solito non si prevede che dispongano di dati matematici o di ricerca per sviluppare nuovi algoritmi per problemi specifici.

Competenze e strumenti: gli analisti di dati devono avere una conoscenza di base delle competenze di base: statistiche, raccolta dei dati, visualizzazione dei dati, ricerca dei dati, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.

Sviluppatori di Business Intelligence

I produttori di Business Intelligence sono professionisti dei dati che hanno una relazione più stretta con gli stakeholder interni per comprendere le esigenze di reporting e quindi raccogliere i requisiti, creare soluzioni di BI e di reporting aziendale. Dovrebbero progettare, sviluppare e mantenere database nuovi ed esistenti, pacchetti ETL, cubi, dashboard e report di analisi.

Inoltre, lavorano con database trasversali e multidimensionali e devono avere ampie competenze nello sviluppo di SQL per integrare i dati provenienti da una varietà di fonti. Usano tutte queste competenze per soddisfare le esigenze di self service dell'azienda. In genere, non è previsto che il produttore BI esegua l'analisi dei dati.

Competenze e strumenti: ETL, elaborazione dei report, OLAP, cubi, web intelligence, progettazione di oggetti business, tableau, strumenti per dashboard, SQL, SSAS, SSIS.

Ingegnere dell'informazione

I data engineer sono specialisti di dati che preparano un'infrastruttura di "big data" che viene analizzata dagli specialisti di dati. Sono ingegneri del software che progettano, costruiscono, integrano e gestiscono i big data da una varietà di fonti. Quindi scrivono query complesse, si assicurano che siano di facile accesso, funzionino senza intoppi e il loro obiettivo è ottimizzare le prestazioni dell'ecosistema di big data dell'azienda.

Possono anche eseguire alcuni programmi ETL (Estrai, Trasforma e Carica) su set di dati di grandi dimensioni e creare grandi database che possono essere utilizzati dai data scientist per il reporting o l'analisi. . Inoltre, poiché i Data Engineer sono più focalizzati sul design e sull'architettura, di solito non si aspettano di conoscere alcun apprendimento automatico o analisi per i big data.

Competenze e strumenti: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, Flusso di dati, NoSQL, SQL, Programmazione.

Data scientist

Alchimista del 21 ° secolo di Data Scientist: qualcuno che trasforma i dati grezzi in concetti raffinati. I data scientist utilizzano approcci analitici per risolvere importanti problemi di statistica, apprendimento automatico e business. Il loro compito principale è aiutare le organizzazioni a trasformare grandi volumi di big data in informazioni preziose ed efficaci.

In effetti, la scienza dei dati non è una direzione completamente nuova, ma può essere vista come un livello avanzato di analisi dei dati che è controllato e automatizzato dall'apprendimento automatico e dall'informatica. In altre parole, i data scientist hanno forti capacità di programmazione, nuovi algoritmi, elaborazione di big data e conoscenza del dominio, oltre all'analisi dei dati, rispetto agli "analisti di dati". è previsto.

Inoltre, ci si aspetta che i data scientist interpretino e condividano liberamente i risultati dei loro risultati con storie interessanti su come visualizzarli, creare applicazioni di dati o risolvere i loro problemi di business dei dati.

Le capacità di problem solving dei data scientist richiedono una comprensione delle tecniche di analisi dei dati sia tradizionali che nuove per la costruzione di modelli statistici o l'identificazione di modelli nei dati. Gli esempi includono la creazione di un sistema di riferimento, la previsione del mercato azionario, la diagnosi basata sul paziente o la ricerca di transazioni contraffatte.

A volte i dati possono essere forniti agli scienziati in generale quando non ci sono problemi di business. In questo caso, un curioso scienziato di dati dovrebbe studiare le informazioni, trovare le domande di cui hai bisogno e fornire risultati interessanti! Ciò è difficile, poiché i forti esperti di analisi dei dati sono molto appassionati di analisi dei dati, raccolta dei dati, statistiche e metodi diversi nell'infrastruttura dei big data. deve avere molta conoscenza.

Dovrebbero avere esperienza di lavoro con diversi set di dati di varie dimensioni e forme e utilizzare i loro algoritmi per dati su larga scala in modo efficace ed efficiente, il che di solito significa essere consapevoli di tutte le ultime tecnologie. Ecco perché è importante conoscere le basi dell'informatica e della programmazione, compresi linguaggi e tecnologie di database (grandi / piccole).

Competenze e strumenti: Python, R, Scala, Apache Spark, Hadoop, strumenti e algoritmi di ricerca dei dati, apprendimento automatico, statistiche.

MUORO - Dati e analisi Genius muoro.io