Secundaire data; Word data-explosies de baas

Niet alleen het groeiende datavolume bezorgt organisaties hoofdbrekens, maar het beheer, de kosten en de opslaglocaties behoeven ook de nodige aandacht. Daarnaast is niet alle data gelijk. Sommige gegevens worden constant geraadpleegd en anderen slechts eenmalig of soms helemaal niet meer. Dit heeft invloed op de gehele IT-omgeving van een organisatie.

Ziekenhuizen zijn een voorbeeld van organisaties die te maken hebben met enorme hoeveelheden data die langdurig bewaard moeten worden. Alle medische scans en documentatie resulteren al snel in honderden terabytes aan gegevens, die beschikbaar moeten blijven zolang een patiënt leeft. Het zou nog te overzien zijn als die gegevensvolumes min of meer constant zouden blijven. De realiteit is echter weerbarstiger.

Secundaire data is de uitdaging

Het is onvoorspelbaarheid van data waar de uitdagingen echt ontstaan. Volgens analistenbureau Gartner zal de hoeveelheid data de komende vijf jaar met maar liefst 800 procent toenemen. Daar kunnen ziekenhuizen slecht op anticiperen door extra opslagcapaciteit te blijven aanschaffen. Dit soort organisaties moeten het over een andere boeg gooien. De sleutel daartoe ligt in het volgende percentage dat Gartner noemt: 80 procent van de data-aanwas is zogeheten ongestructureerde data. Dat zijn gegevens die niet in een actieve database zitten. Denk aan losse bestanden, back-ups, archieven, logs, mediabestanden, bestanden voor testomgevingen en analyse. Het is data die enerzijds niet direct raadpleegbaar hoeft te zijn, en waarop anderzijds niet de hoogste SLA-eisen van toepassing zijn. Daarom heet dit ook wel secundaire data.

Secundaire data opslag Beschikbaarheid, vindbaarheid en indexering zijn de belangrijkste onderwerpen om de waarde van secundaire data goed te benutten. Bovendien moet de data veilig opgeslagen zijn, tegen zo laag mogelijke kosten. Dat mag echter niet ten koste gaan van de prestaties van de omgeving. Zo kunnen bijvoorbeeld backups van tevoren worden ingesteld. Maar zonder intelligente software die de back-up window bepaalt, ontstaat er al snel piekbelasting op de slechtst denkbare momenten, waardoor performance achteruitgaat. Bovendien wordt het beheer van alle verschillende storagemiddelen en -locaties binnen een organisatie al snel een nachtmerrie.

Kosten voor beperkte baten

Secundaire data is dus (relatief) duur, in vergelijking met primaire, data vergeleken met het doel ervan. Door verkeerd of gebrekkig beheer ontstaat er een wirwar aan data op verschillende locaties met meerdere kopieën in de infrastructuur. De secundaire data neemt ruimte in van apparaten op de edge of van dure SAN-oplossingen die eigenlijk bedoeld zijn voor primaire data. Hierdoor bevindt de data zich op allerlei on- en off-premise datacenter- en cloudlocaties. Dit maakt deze gegevens ook moeilijk vindbaar. Zoeken naar dergelijke data kost daardoor meer tijd, middelen en daarmee geld. Tegelijkertijd kan men secundaire data niet weggooien. Hoe kun je als grote organisatie het databeheer dan efficiënt inrichten?

Hardware dicht op elkaar, en slimme software

Organisaties die worstelen met databeheer hebben de capaciteit meestal wel op orde. In dat geval gaat het erom hoe ze deze capaciteit efficiënt inzetten. Effectieve inrichting zonder bottlenecks is het doel. En er is software nodig die alle datastromen coördineert. Hard- en software moeten daardoor perfect met elkaar werken om de grootste winst te kunnen boeken. De conclusie is al snel de inzet van een hyperconverged oplossing.

Kort door de bocht betekent hyperconverged een naadloze integratie van storage, compute en eventueel andere onderdelen tot één centrale oplossing, met een enkele managementinterface. Dit maakt de onderlinge communicatielijnen tussen deze onderdelen minimaal. Daarbij is de bijbehorende software volledig afgestemd op deze ICT-omgeving, dus meer controle met minimaal beheer. Bovendien kan de capaciteit gemakkelijk worden uitgebreid.

SDS schept ook mogelijkheden

Voor verschillende storage omgevingen kan software defined storage (SDS) ook voor grote verbeteringen zorgen en goede interoperabiliteit met de cloud bieden. Zo kan het met speciale bestandssystemen werken die zijn ontwikkeld om ongestructureerde data te ordenen. Cohesity DataPlatform is bijvoorbeeld gebouwd op SpanFS, een gedistribueerd bestandsysteem met ingebouwde deduplicatie voor de hele omgeving en directe integratie met cloud-omgevingen. Goede software defined oplossingen zijn daarnaast erg flexibel. Je kunt ze installeren op appliances voor de eigen omgeving, maar ook inzetten als ‘software only’ en deze uitrollen binnen gevirtualiseerde omgevingen of de cloud.

De omgeving groeit evenredig aan de groei van data.
De ramingen van Gartner gaan uit van de komende vijf jaar. Maar de exponentiële data-explosie blijft ook daarna aanhouden. Daar valt met een traditionele omgeving niet tegen op te schalen. Uiteindelijk zijn er te veel beperkingen en moet alles op de schop tegen hoge kosten. Dit maakt een softwarematige aanpak wenselijker, eventueel in combinatie met hyperconverged infrastructuur wanneer performance essentieel is. Goed ontworpen storage-omgevingen kunnen dan efficiënt schalen om de gegevensgroei bij te benen, vooral wanneer er een intelligente archiverings-oplossing bij wordt ingezet. Met de juiste aanpak kan snel een besparing van 40 procent of meer op de investeringskosten worden behaald.

Schep orde in de chaos

De komende jaren zal de explosie van datavolumes allerlei organisaties dwingen om een flexibele storage-oplossing te vinden. De juiste hyperconverged en SDS-oplossingen maken de groeiende hoeveelheid secundaire data echter inzichtelijk en het beheer ervan vele malen efficiënter. En dat is cruciaal voor IT-afdelingen die grote data-explosies het hoofd willen bieden.

Dovilo denkt graag met u mee over hoe de secundaire data optimaal te beheren en de perfecte balans aan te brengen tussen prestaties, kosten en beschikbaarheid. Neem contact met ons op om de mogelijkheden te bespreken.