Dubbletter del 2: Hopslagning

9 december, 2009 Henrik

I ett tidigare inlägg beskrev vi hur dubbletter i SwePub identifieras. Som utlovats kommer här en beskrivning av hur vi slår ihop dessa dubbletter i söktjänsten SwePub.kb.se.

Kort kan man beskriva skapandet av en sammanslagen post enligt följande:

  1. En masterpost väljs (= den post i dubblettupeln som har flest antal metadatafält).
  2. Icke upprepningsbara fält tas från mastern. Från övriga poster kastas alltså dessa värden bort.
  3. Unionen av upprepningsbara fält läggs till i den nya posten.

Till de upprepningsbara hör författare, lärosäte, ämnesord (nyckelord och svep-kategorier), anmärkningar, serieuppgift, id:n och uri:er (externa länkar). Bland dessa är författare de mest intrikata. Detta dels för att sampublikationer till sin natur har fler än en författare, dels för att personamn anges på lite olika sätt (med förnamn utskrivna eller endast initialer, med för och efternamn i separata fält eller kommaseparerat). Det krävs därmed en del logik för att jämföra författarnamn, så att samma namn inte upprepas i den sammanslagna posten. Det kan nämnas att vi i detta fall anser att exempelvis Andersson, P. och Andersson, Pia är samma person.

De icke upprepningsbara fälten är titel, värdpublikation, publikations- och innehållstyp, språk, utgivningsår, fysisk beskrivning och abstracts. Ett litet undantag är dock fält som kan förekomma på både svenska och engelska. Dessa kompletteras med det/dem språk som inte förekommer i mastern.

Exempel på en sammanslagen post baserad på inte mindre än sex lokala poster från fem lärosäten: http://swepub.kb.se/bib/swepub:oai:services.scigloo.org:84589.

Filed under: Utveckling

Etiketter:, ,


Kategorier

Senaste kommentarer

Arkiv

Verktyg

Informationskanaler