Identifiera format

Fyra stycken programvaror för att identifiera format har utvärderats: DROID, JHOVE, TriID och FILE IDENTIFIER.

2009-04: Kompletterande undersökning, DROID version 3.
2009-08: DROID 4.0 resp. DROID 5.0.
2009-08 JHOVE2 prototyp för utvärdering.
2009-10: DROID 5.0 öppen för utvärdering
2010-03 JHOVE2 uppdaterad prototyp
2012-02 DROID 6.0
2012-02 JHOVE2
Läs mer längst ner på denna sida.

Utvärderade programvaror

Detta arbete gjordes som en del av CODA-projektet år 2007. Syftet med undersökningen var att testa ett antal verktygs funktionalitet för identifiering av filformat.

Följande programvaror utvärderades:

  • DROID
  • JHOVE
  • TriID
  • FILE IDENTIFIER

Utvärderingen i sin helhet kan ses i projektets slutrapport.

Slutrapport CODA 2007

[https://ldb.project.ltu.se/main.php/ldb.project.ltu.se/main.php/projects/portalproject/docs/Publikationer/Svenska%20publikationer/CODA-2007_slutrapport.pdf?fileitem=7475394]

Testets genomförande

För att få ett bra testmaterial har de logiska format vilka använts som testfiler undersökts med HHD Free Hex Editor samt med editorn XVI32. Detta har gjorts mot formatregistren PRONOM och registret på Library of Congress där man har tagit fram formatets interna signatur. För att sen via någon av de ovanstående editorerna försöka att verifiera den interna hexadecimala signaturen i testfilen. Detta för att fastställa formatets äkthet, dvs. formattyp samt version.

Antalet testfiler som används är 25 st uppdelat i elva stycken filer innehållande textinformation, sex stycken med bildinformation, fyra stycken med ljudinformation samt fyra stycken filer med rörlig bild.

Test har gjorts två gånger på samma fil, en där filändelse är med, samt på samma fil igen med skillnad att filändelse är borttagen. Detta har gjorts för att se om verktyget endast gör sin identifiering på filändelse eller om den även går in i filstrukturen för att identifiera filformatet. Eventuellt använder både ändelse samt inre struktur för identifiering.

DROID

DROID (Digital Record Object Identification) är ett verktyg utvecklat av National Archives i Storbritannien. Ett plattformsoberoende verktyg skrivet i programspråket Java och fullt dokumenterat med publika API för enkel integration i olika system.

Verktyget är framtaget för att identifiera filformat och detta sker via den interna och externa signaturen som ett filformat har (magic number, filändelse). De unika signaturerna för de olika filformaten lagras i en XML-struktur som fås från formatregistret PRONOM och uppdateras regelbundet. DROID har två olika gränssnitt att arbeta emot, dels ett grafiskt Java swing GUI eller ett kommandostyrt gränssnitt.

Utdata från DROID:

  • PUID, Persistent Unique Identifier, PRONOM:s unika identifierare för fil
  • Filens MIME-typ
  • Formatnamnet på den identifierade filen
  • Version
  • Status (genererar: positive (specific), positive (generic), tentative samt negative. Positive (specific) visas då den interna strukturen samt ändelse stämmer överens med givet unikt filformat. Alternativ finnes då den interna strukturen i en fil matchar unik given fil, dock stämmer ej filändelse. Detta resulterar i en varning på filändelse. Positive (generic) visas då den interna strukturen samt ändelse stämmer överens med ett generiskt filformat, detta kan leda till flera träffar (flera versioner visas samtidigt) beroende på att det inte finns någon unik intern struktur för specifik filformat, utan endast för en filklass. Alternativ finns då den interna strukturen i en fil matchar generisk format, dock stämmer ej filändelse. Detta resulterar i en varning på filändelse. Tentative visas då endast den externa signaturen stämmer (ändelse), ingen träff fås på intern struktur. Negative visas då ej varken intern eller extern signatur stämmer)
  • Warning (Visar eventuella varningar som har med identifierad fil, såsom exempelvis ”possible file extension mismatch”)
  • Unidentified (resultat som visas då filen ej kan identifieras)

Resultat
Totalt identifierade DROID 18 av 25 filer rätt och sju filer delvis rätt. För filer utan ändelse blev resultatet lägre, 15 av 25 filer helt rätt, fem stycken delvis rätt.

Dock finns fem filer som DROID inte har lyckats identifiera. Man ser här att fem filer har identifieras endast via ändelse vid första försök med ändelse, utan ändelse kunde inte DROID hantera dessa filer.

Än värre hade det varit om någon av dessa filer hade haft fel filändelse, man hade då fått en fel identifiering på filen. Vidare så gav DROID flera svar på tre filer (test utan ändelse) vilket gör att det kan vara svårt att veta exakt vilken version filen har. Summering: 72% rätt vid test med ändelse och 60% rätt utan filändelse

DROID

[http://droid.sourceforge.net]

JHOVE

JHOVE-JSTOR/Harvard Object Validation Environment är ett verktyg framtaget av Harvards universitetsbibliotek för identifiering och validering av logiska format. Programmet är skrivet i Java och är plattformsoberoende samt fullt dokumenterat. Varje filformat som skall identifieras/valideras har sin egen modul skriven i java och möjlighet finns att själv utveckla nya moduler för nya format. I dagsläget finns tolv stycken olika moduler för filformat till JHOVE. Kommunikation med programmet sker via grafiskt gränssnitt eller ett kommandostyrt gränssnitt.

Input/Output
Fil eller filer som skall identifieras/valideras kan inmatas katalogvis, alla filer i en katalog kontrolleras av JHOVE, eller om endast en specifik fil skall undersökas så går även det bra. Resultat från JHOVE visas på skärm, kan fås som en XML-strukturerad utskrift eller som en textfil. Även en granskningsfil (audit) kan genereras. Informationen som genereras ut är väldigt innehållsrik, filnamn, version, status samt mycket metadata om filen, dock har vi vid denna test koncentrerat oss på filnamn samt version.

Resultat
Test genomfördes både med Grafiskt UI samt i kommandostyrt gränssnitt. Totalt identifierade JHOVE åtta stycken filer av 25 stycken rätt, ingen avvikelse mellan test med filändelse respektive ingen filändelse fanns. Detta visar att JHOVE gör enbart sin identifikation på filens inre struktur. Då programmet är uppbyggt kring tolv stycken standardmoduler (formatmoduler), varje modul identifierar och validerar ett format. Detta gjorde att man kunde nästintill förutsäga testresultaten. De logiska format som identifierades av JHOVE gjorde programmet mycket bra, förutom identifikation, valideras filen samt eventuell metadata från filen presenteras. Antal rätt identifierade filer blir 32% av samtliga filer

JHOVE

[http://hul.harvard.edu/jhove/index.html]

TriID

TriID-File Identifier är ett verktyg framtaget för att identifiera filer utifrån deras bitström. Verktyget är framtaget av Marco Portello och fungerar på Windows 32 bitars plattformar samt på Linux x86 plattform. Identifieringen av filer sker genom att programmet jämför internt filmönster mot en given mönster i en databas. Möjlighet finns att lära upp programmet genom att köra det mot ett antal filer och sedan uppdatera databasen. Kommunikation med programmet sker via kommandofönster (trid.exe) eller alternativt ett nytt grafiskt Windows applikation (TriDNet.exe).

Input/Output
Inmatning av filer som identifieras kan ske dels katalogvis eller var fil för sig. Resultat ges endast ut via skärm och det finns möjlighet att få flera träffar på en fil. Om man får ett resultat med flera träffar så får man resultatet procentuell rangordnat. TriID output är enkelt, filändelse samt vad det är för sorts fil, ingen version av filformat hanteras.

Resultat
Totalt identifierade TriID sju stycken filer rätt och 13 stycken delvis rätt. Problemet är att programmet inte generellt hanterar olika versioner av filer som är ett av de testdata som krävdes vid denna test. Även sättet att bedöma filen genom att ge procentuell svar kan vara problematiskt, ibland var svaret svårtolkat. Dock sågs ingen skillnad i testen mellan filändelse respektive utan filändelse, dvs. bekräftar som skrevs ovan att identifikationen görs internt i filen. Totalt sett blev 28% av de 25 filerna rätt identifierade.

TriID

[http://mark0.net/soft-trid-e.html]

FILE IDENTIFIER

FILE IDENTIFIER är en betaversion framtagen för att identifiera filformat via interna strukturen i filen samt ta fram mindre mängd metadata. Programmet är skapat av Optima SC Inc och testad version är en freeware. Plattformar som FILE IDENTFIER stödjer är Windows 32 bitar samt Linux x86. Kommunikation med programmet sker via kommandofönster och i dagsläget stöds ca 600 filformat.

Input/Output
Filer som skall identifieras kan undersökas katalogvis, dvs. alla filer i en katalog, alternativt en fil för sig. Utdata från programmet är:

  • Filnamn (Formatnamnet på den identifierade filen samt version)
  • File class (Visar antingen text, bild, ljud eller rörlig bild)
  • Filens MIME-typ.
  • File path (Absolut sökväg till fil)
  • Metadata (Lite metadata visas såsom skapande datum, modifierings datum samt lite metadata bundet till viss filklass)

Resultat från en test kan visas på skärm, fås ut som en html rapport eller en SFV-rapport.

Resultat
FILE IDENTIFIER klarade att identifiera åtta stycken filer med rätt formatnamn och version, medan tolv stycken filer identifierades delvis rätt, antingen rätt format men ingen version hittades eller ett generiskt svar på den undersökta filen gavs av FILE IDENTIFIER. Ingen skillnad i resultatet mellan test där filändelse var med mot utan filändelse. Resultatet blev 32% träffsäkerhet på 25 undersökta filer.

FILE IDENTIFIER

[http://www.optimasc.com/products/fileid/index.html]

Slutsats

Målet med denna test var att identifiera en fils formatnamn samt version, bäst lyckades DROID samt JHOVE. Problemet med de övriga programmen var att de var dåliga på att leverera version samt att viss tvetydighet fanns angående formatnamn.

DROID klarade flest antal filer, totalt 72% rätt med ändelse och 60% rätt vid test utan ändelse. Detta visar dock att inte ens det bästa programmet är fulländat.

Om man ser på det lägre resultatet (ingen ändelse), vilket innebär identifiering som sker på inre struktur. Då blir träffprocenten bara lite mer än hälften, vilket man bör utgå ifrån om man inte är helt säker på att filerna har rätt ändelse. JHOVE kan bara hantera tolv olika format, men dessa identifierar den utmärkt, validerar formatet samt tar fram metadata. Här finns också en möjlighet att skriva nya formatmoduler till programmet. Vet man ungefär vilka format man har i sitt register och vill få dem undersökta och dessa stämmer överens med givna formatmoduler från JHOVE så är detta program ett utmärkt val.

Dock behövs det genomföras fler prov som testar att köra programmen i mer automatiserad form med stora mängder filer, hantering av utdata måste också lösas, vad för information som är viktig samt hur skall den informationen användas. Detta bör vara löst innan man börjar använda verktyget i skarp miljö.

Test av DROID version 3

I oktober 2008 gjorde Göran Lindqvist, LDB-centrum ett test där han jämförde programvaran DROID:s version 3 mot föregående version.

Testet gjordes mot samma testfiler och testprotokoll som användes i projektet CODA-FORM som redovisas ovan.

DROID version 3 (samt även XENA)

[http://www.ltu.se /cms_fs/1.43249!/droid_xena.pdf]

DROID 4.0

En ny version av DROID har släppts under sommaren 2009. Den kan nedladdas via länken nedan.

Länk

[https://sourceforge.net/projects/droid/]

DROID 5.0

Direkt efter att version 4.0 släppts fortsatte arbetet med att utveckla DROID. Version 5.0 beräknas bli klar under år 2010. Arbetsgruppen tar gärna emot förslag till förbättringar och har skapat en wiki som forum för att dokumentera processen. Länk nedan.

I oktober -09 meddelas att fas 2 i utvecklingsprocessen startar i november. I sex månader framåt tar man  emot kommentarer från allmänheten. Följ diskussionerna på wikin.

Länk

[http://droid5.yourwiki.net/wiki/DROID_5.0]

DROID 6.0

National Archives i Storbritannien har nu släppt version 6.0 av mjukvaran DROID. Programmet kan användas till att automatiskt identifiera digitala filformat, deras ålder och storlek samt när de senast förändrades.

Länk till National Archives

[http://www.nationalarchives.gov.uk/information-management/our-services/dc-file-profiling-tool.htm]

JHOVE2

2009-08: Från nestor meddelas att alfa-prototypen för JHOVE2 nu finns publicerad för utvärdering.

2010-03 Uppdaterad prototyp, feedback önskas.

2011 släpptes JHOVE 2.0, se länk nedan.

JHOVE2

[https://bitbucket.org/jhove2/main/wiki/Home]

Publicerad: 27 november 2008

Uppdaterad: 21 februari 2012

Luleå tekniska universitet