vrijdag 26 augustus 2016

dimensies van (Big) Data Analyse

 
Voor een training heb ik onderscheid gemaakt tussen verschillende dimensies van (big) data analyse.
Gekeken wordt ook in welke mate het afwijkt van klassieke data analyse.
 
1.strategie; welke strategische doelen worden ondersteund
2.welke stappen moeten worden genomen bij data analyse
3.welke type kennis wordt opgedaan
4.wat voor data wordt verwerkt
5.welke technieken worden gebruikt
6.welke tools worden gebruikt
7.architectuur
8.benodigde kennis
 
1. (Big) Data Analyse Strategie

De opkomst van big data zorgt dat analytics ingezet kan worden voor meer strategische doelen.
Bij klassieke DA: vooral interne beslissingen ondersteunen. Nu ook kostenreductie, tijdsbesparing en nieuwe producten en diensten.


Bv kostenbesparing:banken die hadoop gebruiken omdat dit goedkoper is dan db-opslag.
Tijdsbesparing: bedrijf dat BDA gebruikt om prijswijzigingen van alle producten binnen een uur te realiseren!

Zie ook het DELTA model van Davenport   Data, Enterprise,  Leadership, Targers, Analysts
Maturitiet van organisatie ; welke zijn relatief belangrijk bij BDA: Data en Analysts!
Andere relatief wat minder belangrijk omdat BDA data en tools (open source) weinig kosten, hoeven er niet direct veel investeringen tegenover te staan.


2.Processtappen (Big) Data Analyse
Over processtappen bij klassieke DA is natuurlijk zeer veel over geschreven. Crisp-DM, Semma. Gaan BDA projecten op zelfde wijze? Vooralsnog vaak niet. Vaak pilots met hackathons.

Belangrijk: software kost vaak niets (open source). Data(opslag) kost weinig. Kosten zitten hem in de mensen!

Klassieke DA – vooral hyphothesechecking/steekproeven; ~klassiek wetenschappelijk onderzoek

BDA – alles wordt onderzocht; Betekent dit het einde van de causaliteit, zoals bv Mayer/Chukier betogen in hun boek de Big Data Revolututie. Lijkt mij overdreven,  al kan zonder inzicht in causale verbanden toch interessante correlaties gevonden worden. (bv google voorspelt griep, supermarkt herkent of vrouw zwanger wordt.)

3. Type kennis bij (Big) Data Analyse
Wat voor type kennis wordt gezocht. 
Dit is bij BDA in principe het zelfde als bij DA  (kennis blijft kennis)
Zie bv CRISP-DM

4.Type data bij (Big) Data Analyse

klassieke DA ging vooral over gestructureerde data in databases. (bovenste drie boven)
Nu komen er bij BDA zeer veel types bij! Hier een poging dit te classificeren.

Hier komen we op een niveau dat we voorbeelden kunnen laten zien,  hier in R, van bv textmining, streaming etc. 

5. Technieken van (Big) Data Analyse


Hier een classificatie  van de verschillende supervised en unsupervised methoden.  
Bij bv textmining kan het bv uiteindelijk aankomen op  clustering van bepaalde texten.
Palet van technieken voor DA blijft (volgens mij) het zelfde bij BDA

6.Tools bij (Big) Data Analyse

belangrijk is een soort layers te onderscheiden.  R, Python bevinden zich hierboven op het bovenste niveau.

7.(Big) Data Anayse Architectuur
Bestaande grote bedrijven zullen hun BDA-architectuur (Hadoop etc) dienen te plaatsen in hun bestaande (DWH)-architectuur. Nieuwe(startups) zullen wellicht direct Hadoop als hun centrale architectuur gaan gebruiken.
 
DWH centraal of ‘Hadoop-cluster’centraal?

8.(Big) Data Analyse Benodigde kennis

Welke kennis heeft een (Big)Data Analist nodig.
Belangrijkste : Leergierig. en "beginnersmind"



Geen opmerkingen:

Een reactie posten