Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

Blog WACZ voor KIA Preservation platform (concept)

'Nieuw' formaat analyse: is WACZ een


geschikt formaat voor preservering?
Of: What's WACZ got to do with it?

Als onderdeel van de Preservation Watch van het Nationaal Archief (NA)
voerden adviseurs Jacob Takema en Marin Rappard een kort onderzoekje uit
naar het web-archief formaat WACZ. Hieronder vind je de voornaamste
bevindingen.

Introductie

Begin 2021 kondigde het Webrecorder project het ‘WACZ format 1.0’ aan (1), een nieuw
bestandsformaat voor het opslaan van webarchieven. Binnen de wereld van webarchivering spelen
het Webrecorder project en de hierin ontwikkelde open source tools en applicaties een grote rol.
Een voorbeeld hiervan is de PyWB viewer (2), ook in gebruik bij het NA voor het aanbieden van
gearchiveerde websites aan gebruikers. Op dit moment leest en toont deze applicatie alleen WARC
en (legacy) ARC bestanden, maar Webrecorder heeft aangekondigd dat PyWB in een aankomende
versie (3.0.) WACZ zal gaan ondersteunen (3). Ook komen we dit formaat steeds vaker tegen op
(voorkeurs)bestandsformaatlijsten van andere (inter)nationale archieven. De bekendheid en
mogelijk gebruik van het formaat lijkt hiermee te groeien.

Binnen het NA wordt momenteel gewerkt aan de Norm Voorkeursformaten. Om te bepalen of


WACZ in de norm genoemd moest worden onderzochten we haar geschiktheid als formaat voor
duurzame opslag. Hiervan doen wij verslag in deze blog.

Wat is WACZ?

Definitie en specificatie

WACZ staat voor Web Archive Collection Zipped. Dit zegt al veel over de inhoud; het gaat om een
collectie webarchieven, verpakt in een zip container. In specificatie wordt WACZ beschreven als:

“(…) a media type that allows web archive collections to be packaged and shared on the web
as a discrete file. A WACZ file includes all the data that is needed for the rendering archived
content as well as contextual information required for users to interpret it. Rendering software
can obtain this data on demand using HTTP Range requests, without requiring the entire file to
be fully retrieved, or for it to be otherwise mediated by specialized server side software.” (4)

Belangrijk hierin is de nadruk op delen en tonen (renderen).


 
Een WACZ object bestaat uit de volgende onderdelen:
1. Een datapackage.json bestand voor het vastleggen van technische en beschrijvende
metadata in een Frictionless Data Package.
2. Een uitbreidbare mappenstructuur en naamgevingsconventie voor web archief data.
3. Een methode voor bundelen van een mappenstructuur in een ZIP bestand.
 
 
Fig. 1: WACZ mappen structuur

Nadruk op client-gebruik versus server infrastructuur

Het hosten van webarchieven vraagt op dit moment een complexe serverinfrastructuur om WARC
data op zo’n manier te verwerken dat het in een browser getoond kan worden. Het NA heeft al een
dergelijke infrastructuur, met de voorgenoemde PyWB. Het WACZ-formaat biedt een
opslagmethode die geoptimaliseerd is om WARC-data makkelijk te kunnen tonen in browsers
zonder dat een dergelijke infrastructuur nodig is. Het zorgt ervoor dat de data op zo’n manier
verpakt is dat een browser deze kan renderen door alleen dat op te roepen uit het verpakte
bestand wat nodig is voor de specifieke pagina die wordt opgeroepen. Hierbij wordt gebruik
gemaakt van de ingebouwde index die bij de ZIP-container is ingesloten. Deze wordt ingezet voor
het lokaliseren van de inhoud van de webarchieven en bijbehorende metadata (5).

Is WACZ een archiveringsformaat?

De ontwikkelaars van het formaat geven in de specificatie aan dat “WACZ is not designed to
replace other web archiving formats. Rather it establishes a file packaging convention for all the
data needed by a browser for efficient rendering of a web archive collection, and its
contextualization.” Hiermee benoemen ze het dus eigenlijk tot een verpakkingsconventie die het
renderen van webarchieven door een losstaande browser vergemakkelijkt, niet specifiek een
bestandsformaat voor langdurige opslag.

Criteria en score

Hierdoor kwamen wij tot het inzicht dat WACZ lastig te beoordelen is als een bestandsformaat voor
archivering. Dat gaat voorbij aan het doel van het formaat. Het verpakt onder meer WARC.gz
en .json bestanden in een ZIP op een gestandaardiseerde manier. WACZ leunt daardoor op een
aantal bestandsformaten en bijbehorende specificaties zoals ZIP, WARC, GZIP, json (datapackage)
(6) en CDX. Daardoor is het niet één op één te vergelijken met WARC en de huidige good practice
om WARC bestanden ‘los’ op te slaan, al dan niet ingepakt met archiefmetadata (in een ‘MDTO SIP’
of AIP). Zeker voor het NA, waar de benodigde infrastructuur al gebouwd is, heeft aanlevering in
WACZ waarschijnlijk geen toegevoegde waarde.

Dat we WACZ zien als een verpakkingsconventie zorgt er ook voor dat we het niet goed kunnen
scoren op de NARA file format risk matrix. Dit betekent overigens niet dat WACZ geen rol kan
spelen bij het duurzaam toegankelijk opslaan van webarchieven. Het zal eerder een aanvullende rol
spelen om in een bepaalde context toegepast te worden dan dat het bestaande
webarchiveringsformaten vervangt.

Samenvatting en conclusies

Onze eerste ingeving was om WACZ te vergelijken met WARC, maar bij nadere inspectie bleek dat
geen goede vergelijking. Uit de specificatie van WACZ blijkt dat het bedoeld is als
verpakkingsconventie voor het tonen en delen van webarchiefbestanden, terwijl WARC dient als
webarchiveringsconventie. Een WACZ bevat dan ook WARC(.gz) bestanden en bundelt de WARC
bestanden en extra informatie in één ZIP container.
Een WACZ bestand bestaat uit WARC bestand(en) met extra informatie erbij opgeslagen en
ingepakt in een ZIP bestand. Daardoor is het mogelijk om efficiënt webarchieven te harvesten én
te tonen vanuit een applicatie in de browser, bijvoorbeeld met een plug-in. Dit betekent dat er op
een client gewerkt kan worden en er geen aparte server hoeft worden opgezet om webarchieven te
harvesten (bv. Met Heritrix) of te tonen (bv. met de Wayback Machine). Als een organisatie al
beschikt over deze (vaak) complexere server infrastructuur dan kan het minder evident zijn om
WACZ te gebruiken.
WACZ vinden jullie?

Op basis van dit onderzoekje kwamen we tot de conclusie dat WACZ voor het Nationaal Archief
(nog) geen toegevoegde waarde heeft als archiveringsformaat en zelfs wat extra (maar niet veel)
werk vraagt. Wel zijn wij benieuwd welke andere instellingen ervaring hebben met het creëren,
beheren, uitwisselen of archiveren in dit formaat. Werken jullie wel met WACZ, en zo ja, wat zijn
jullie ervaringen en bevindingen? Wij horen het graag! Laat hieronder een berichtje achter of stuur
een e-mail aan dit e-mailadres.

Voetnoten

1. Kreymer, Ilya and Emma Dickson. “Announcing WACZ Format 1.0”. Webrecorder (blog).
January 18, 2021. https://webrecorder.net/2021/01/18/wacz-format-1-0.html.
2. “Webrecorder/pywb”. Github, last modified May 19, 2023,
https://github.com/webrecorder/pywb.
3. Kreymer, Ilya and Tessa Walsh. “Announcing pywb 2.7.0 release”. Webrecorder (blog).
https://webrecorder.net/2022/11/23/pywb-2.7.html.
4. Kreymer, Ilya and Ed Summers. “Web Archive Collection Zipped (WACZ)”. Webrecorder.
https://specs.webrecorder.net/wacz/1.1.1/.
5. Idem.
6. Walsh, Paul and Rufus Pollock. “Data Package”. Fractionless Standards. Last modified May
2, 2017, https://specs.frictionlessdata.io/data-package/#language.

You might also like