De-duplikering
Data de-duplikering er en særlig datakomprimeringsteknik til at fjerne redundante data, typisk for at forbedre udnyttelsen af ens storage kapacitet. I de-duplikering processen, slettes dublerede data, så der kun én kopi af de oplysninger der lagres, sammen med henvisninger (links) til den unikke kopi af data.
De-duplikering er derved i stand til at reducere den nødvendige lagerkapacitet, idet kun de unikke data er gemt.
Forskellige applikationer og datatyper har naturligvis forskellige niveauer af data redundans. F.eks. får backup applikationer generelt meget ud af de-duplikation på grund af gentagne fuld backup af et eksisterende fil-system.
En af de mest almindelige former for data de-duplikerings implementeringer fungerer ved at sammenligne bidder (chunks) af data til at opdage dubletter. For at dette kan ske, er hver chunk data tildelt en identifikation, der beregnes af softwaren (typisk ved hjælp kryptografisk hash værdier). I mange implementeringer er det antagelsen, at hvis to identifikationer er ens, er data også identisk. Andre og mere avanceret implementeringer, antager ikke at data er identisk, blot fordi to identifikationer er ens, men kontrollere faktisk, at data med den samme identifikation er identisk. Når processen (uanset metoden) har konstateret at to chunks er identiske, erstattes dubletten med et link til det eksisterende data.
De-duplikering processen er beregnet til at være transparent for slutbrugere og applikationer.
Data de-duplikering er overvejende blevet anvendt med sekundær storage-systemer. Primært af to årsager. Først og fremmes, kræver data de-duplikering et overhead til at opdage og fjerne dublerede data. Ved storage systemer til produktionsmiljøer, kan dette overhead påvirke ydeevnen, hvilket ikke altid er hensigtsmæssigt. Den anden grund til at de-duplikering primært er anvendt på sekundære data, er, at dette data har tendens til at have mere dublerede data. F.eks. skaber backup programmer normalt betydelige portioner af dublerede data over tid.
De-duplikering er blevet anvendt med succes på primære storage systemer i flere tilfælde, dog skal man være opmærksom på det performance overhead det vil skabe.
Post-proces de-duplikering
Med post-proces de-duplikering, bliver ny data først gemt på storage systemet, og derefter vil en proces på et senere tidspunkt analysere data for dubletter. Fordelen ved denne metode er, at data skrives uden at hash beregninger og opslag påbegyndes og derved påvirker performance på systemet. Implementeringer tilbyder typisk politik-baserede operation, der kan give brugerne mulighed for at udskyde optimeringen på "aktive" filer, eller at behandle filer baseret på type og/eller placering. En potentiel ulempe er, at du unødigt kan lagre dublerede data i en kort tid, som er et problem, hvis oplagring systemet er tæt på fuld kapacitet. Herudover kræver denne metode, at systemet på et givet tidspunkt at luft til at lave denne kørsel.
In-line de-duplikering
Dette er den proces, hvor de-duplikeringen (hash beregningerne, opslag mv.) sket ”real time” når data skrives til storage systemet. Hvis storage systemet ser en chunk som allerede er gemt i systemet, skrives den nye chunk ikke, men der oprettes blot en henvisninger (link) til det eksisterende data. Fordelen ved in-line de-duplikering er at den kræver mindre storage, sammenlignet med post-proces de-duplikeringen, da der ikke skrives dubletter. På den negative side, er det ofte fremført, at eftersom hash beregninger og opslag tager tid, påvirker det dem generelle performance på systemerne, hvilket f.eks. ville give et dårligere throughput i forbindelse med backup. Imidlertid har visse leverandører med in-line de-duplikering demonstreret udstyr med tilsvarende resultater som post-processen de-duplikering kan modstykke.





