Tag: SwePub

SwePub – liten statusrapport

2012 kommer att bli ett år av förberedelser när det gäller utvecklingen av SwePub. Det har nära kopplingar till arbetet med den underliggande tekniska strukturen för nationell katalog som bygger på en databrunnskomponent, vilken ska hantera stora mängder av data som till exempel artiklar, och där SwePub-datat kan vara en mängd. Vi behöver utforska hur den övergripande användarupplevelsen av våra tjänster ser ut och vad vi behöver förändra för att tillföra större nytta. Vad är drivkraften hos användarna? Har de behov av att få allt innehåll på ett ställe? Hur ska vi visualisera stora mängder data? Hur kan vi ge stöd i rätt läge och i vilka kanaler? Frågorna är många och mycket resurser behöver läggas på research.

Användningsstatistik från SwePub visar att det ganska stabilt numera är ca 1000 besökare per dag. Den visar också att besökarna stannar kvar längre, att användarna har lärt känna tjänsten och vet vad man hittar här. Däremot är det inte många som hittar fulltexter i de öppna arkiven via SwePub.

Nyligen blev en utredning om utvärdering av forskningskvalitet klar: Utvärdering av forskningskvalitet som en grund för tilldelning av resurser till universitet och högskolor (U 2010:C), Max Kesselberg och Anders Flodström, Utbildningsdepartementet. Ett huvudspår är möjligheten att använda SwePub och universitetens repositoriedata som underlag för medelfördelning. Utredarna har blivit informerade om den kvalitetshöjning som krävs om SwePub ska kunna fungera som underlag för utvärdering. Vi har också lämnat in underlag för uppskattade kostnader för en kvalitetshöjning av SwePub. Nu avvaktar vi direktiv (liksom finansiering) från regeringen/departementet till 2013. Det kommer naturligtvis att påverka den fortsatta utvecklingen av tjänsten.

Kommentera november 7, 2011 Marja Haapalainen

Nationellt centrum för kvinnofrid använder LIBRIS öppna API:er

Ytterligare en tjänst använder sig av LIBRIS öppna API:er. Den 15 september lanserade Nationellt centrum för kvinnofrid (NCK) sin nya söktjänst Kunskapsbanken. Kunskapsbanken kombinerar sin egen databas med data från LIBRIS och SwePub.

Kommentera september 25, 2010 Kristin

Invigningen av SwePub

Nu finns filmerna från invigningen av SwePub på OpenAccess webbplats, liksom övriga inspelningar från konferensen Mötesplats Open Access 2009.

Själva invigningen och det officiella öppnandet döljer sig bakom filmen med Bengt Karlsson. Där pratar även Gunnar Sahlin och Katarina Bjelke från Utbildningsdepartementet gör den officiella ridåavtäckningen.

Såväl Kristin Olofsson som Henrik Lindström pratar om SwePub där bildtexten (tyvärr) endast anger Kristin.

Titta också gärna på övriga presentationer – där finns mycket intressant och underhållande att hämta.

2 kommentarer december 13, 2009 Kristin

Dubbletter del 2: Hopslagning

I ett tidigare inlägg beskrev vi hur dubbletter i SwePub identifieras. Som utlovats kommer här en beskrivning av hur vi slår ihop dessa dubbletter i söktjänsten SwePub.kb.se.

Kort kan man beskriva skapandet av en sammanslagen post enligt följande:

  1. En masterpost väljs (= den post i dubblettupeln som har flest antal metadatafält).
  2. Icke upprepningsbara fält tas från mastern. Från övriga poster kastas alltså dessa värden bort.
  3. Unionen av upprepningsbara fält läggs till i den nya posten.

Till de upprepningsbara hör författare, lärosäte, ämnesord (nyckelord och svep-kategorier), anmärkningar, serieuppgift, id:n och uri:er (externa länkar). Bland dessa är författare de mest intrikata. Detta dels för att sampublikationer till sin natur har fler än en författare, dels för att personamn anges på lite olika sätt (med förnamn utskrivna eller endast initialer, med för och efternamn i separata fält eller kommaseparerat). Det krävs därmed en del logik för att jämföra författarnamn, så att samma namn inte upprepas i den sammanslagna posten. Det kan nämnas att vi i detta fall anser att exempelvis Andersson, P. och Andersson, Pia är samma person.

De icke upprepningsbara fälten är titel, värdpublikation, publikations- och innehållstyp, språk, utgivningsår, fysisk beskrivning och abstracts. Ett litet undantag är dock fält som kan förekomma på både svenska och engelska. Dessa kompletteras med det/dem språk som inte förekommer i mastern.

Exempel på en sammanslagen post baserad på inte mindre än sex lokala poster från fem lärosäten: http://swepub.kb.se/bib/swepub:oai:services.scigloo.org:84589.

Kommentera december 9, 2009 Henrik

RSS till SwePub

Nu finns möjlighet att bevaka en sökning med RSS (egentigen atom) i SwePub.kb.se. Flödet skapas från träfflistan.

Flödet är baserat på uppdateringsdatum i de lokala databaserna. Detta innebär att om det sker någon form av massuppdateringar i ett lokalt system kan det komma en hel del poster i flödet, som dock är begränsat till de 200 senast uppdaterade.

3 kommentarer december 9, 2009 Henrik

Dubbletter, tripletter och en och annan kvadrupel

SwePub är som sagt lanserad. Det ligger en hel del arbete bakom den samlade nationella noden, inte minst från alla deltagande lärosätens sida. Det har handlat mycket om att implementera metadataspecar och att fortlöpande göra dataförbättringar; ett arbete som även fortsätter efter lanseringen.

En viktig del i arbetet med söktjänsten SwePub.kb.se har varit att hantera alla de dubbletter som förekommer i datat. Det finns en hel del av den varan i SwePub-datat eftersom det består av poster insamlade från en rad olika lokala system.

Ett typexempel är två forskare som samarbetat kring en publikation och lagt in den var för sig i sitt eget lokala system. Detta förekommer såväl för samarbeten olika lärosäten emellan som när forskarna är verksamma vid samma universitet. Andra exempel är forskare som flyttat och lagt in samma publikation i två olika system. Eller avhandlingar från lärosäten som saknar examinationsrätt: både det examinerande lärosätet och forskarens ”hemmalärosäte” levererar en post för avhandlingen.

Det rör sig om i runda tal 10% dubbletter, vilket med 250 000 poster medför ca 25 000 dubblettposter. Dessa är fördelade på ungefär 11 000 dubblett-tupler (två eller flera poster som beskriver samma publikation). Det rör sig alltså främst om dubbletter men det förekommer även en hel del tripletter (runt 700), kvadrupler (runt 100) et cetera (ett fåtal).

För att identifiera och slå ihop dessa går posterna igenom ett dedupliceringssteg innan de laddas i sökmotorn. Mängden data och dubbletter gör det ganska klart att dedupliceringen måste ske i huvudsak på automatisk väg. Eftersom data även uppdateras frekvent har vi valt att göra dedupliceringen från början varje natt för att slippa hålla reda på en lång historia av hopslagna poster.

En algoritm är ju dock aldrig hundraprocentig och vi har därför lagt till en möjlighet att ange undantag manuellt, d.v.s. att säga att två eller flera poster *inte* är dubbletter. En vidareutveckling blir att även kunna tvinga ihop dubbletter som missats av algoritmen.

Själva dedupliceringsalgoritmen är inte helt enkel att beskriva kortfattat, men här kommer ett försök i punktform:

  1. Skapa en nyckel för varje post bestående av dess publikationstyp (artikel, kapitel, doktorsavhandling etc.) och de första femton normaliserade tecknen i titeln.
  2. Skapa temporära kluster för poster med samma nyckel.
  3. För varje par av poster i ett sådant kluster, jämför dessa enligt nedan (ett uppfyllt villkor innebär att posterna anses vara dubbletter, och kollen avbryts):
    1. Identiska id:n (isbn, pmid, isi-id)?
    2. Samma tidskriftsreferens (issn+vol+num+startsida)?
    3. Överensstämmande titlar och utgivningsår? För publikationstyper som har värdpublikation måste även värdpublikationens titel överensstämma

Vad gäller strängjämföresle av titlar kan påpekas att dessa görs med en algoritm som inte kräver exakt liket utan tolererar att strängarna skiljer sig åt till en viss grad. Detta är nödvändigt då fält inte bara skiljer sig åt p.g.a rena stavfel utan även att titlar m.m. anges på lite olika sätt. Det kan exempelvis handla om hur man använder förkortningar.

Det finns en del andra finesser i algoritmen. För överskådlighetens skull lämnar vi dock dessa därhän.

I avsaknad av uppmärkt testdata (vilket är mycket tidskrävande att ta fram) har vi gjort en manuell utvärdering av algoritmen. Detta har gått till genom att manuellt granska ett slumpvis urval av dubbletter samt par av poster som ”precis” klassats som icke-dubbletter. Resultatet visar på att både precision (andelen av de identifierade dubbletter som är äkta dubbletter) och täckning (andel av alla äkta dubbletter som hittas) ligger över 95%.

Vi är ganska nöjda med detta resultat och tror att det i kombination med möjligheten att manuellt ange undantag mycket väl fyller sina syften för söktjänsten.

Hur vi slår ihop poster återkommer vi till i ett kommande inlägg.

5 kommentarer december 6, 2009 Henrik

SwePub lanserad

Nu är SwePub lanserad!
Vetenskaplig publicering från (just nu) 29 av våra svenska lärosäten.

Invigningen blev lyckad. Och vi lätt euforiska. Öppningstal av Gunnar Sahlin (riksbibliotekarie), Bengt Karlsson (generalsekreterare SUHF) och Katarina Bjelke (departementsråd Utbildningsdepartementet). Katarina fick göra den officiella knapptryckningen och avslöja vad som fanns bakom den sammetsröda ridån.

Stefan Andersson (projektledare) berättade om upprinnelsen till projektet och visade den smått klassiska servett med projektskiss som kom till på en krog på Valhallavägen.

Ulf Kronman diskuterade runt möjligheterna att använda SwePub som källa för bibliometriska analyser för Vetenskapsrådet, om det skulle kunna komplettera datat från ThompsonReuter de laborerar med idag.

Nåväl, nu har vi lanserat SwePub som är:

  • En söktjänst
  • En samlad, nationell nod för vetenskaplig publicering
  • Ett magasin för fritt åtkomligt data, med flera olika åtkomstgränssnitt

Utforska och kom gärna med feedback!

5 kommentarer november 28, 2009 Kristin

SwePub lanseras 26 november!

Nu är det bestämt. SwePub ska lanseras den 26 november under Möteplats OpenAccess i Uppsala.

Vi har under projektets gång och efter ett antal användarintervjuer upptäckt att den största användarnyttan är att integrera SwePub-posterna i LIBRIS ordinarie söksystem. Ingen av användarna vi intervjuade var egentligen intresserade av att bara söka i svenskt vetenskapligt material från publiceringsdatabaserna. Det är andra tvärsnitt man är intresserad av. Så att integrera SwePub i LIBRIS var egentligen inget svårt beslut. Om man bortser från alla utmaningar som dubbletthantering, merging av poster och bestånd, en transparent design och andra godbitar.

LIBRIS uppgift är att bygga en miljö för informationssökning för SwePub-datat. Man ska alltså inte använda söksystemet för statistikändamål; för det behövs en helt annan behandling av datat. Men den svenska vetenskapliga publiceringen kommer att finnas samlad i en databas – det är en god start för framtida utvärderings- och analysverktygsprojekt.

Det är inte långt kvar till 26e november. Därför kommer vi att lansera i två steg.

26 november

  • SwePub blir sökbart separat
  • Vi har en nationell nod för svensk vetenskaplig publicering från våra lärosäten
  • Vi erbjuder olika exportgränssnitt mot SwePub-datat som OAI-PMH, SRU, LIBRIS lättvikts-API Xsearch, alla de referensformat vi erbjuder i ordinarie LIBRIS
  • LIBRIS webbsök kommer att se ut som vanligt

Steg två

  • En integrering av LIBRIS och SwePub
  • Vi har slagit ihop/mergat poster från LIBRIS och SwePub
  • Vi får ett nytt gränssnitt, en ny version av LIBRIS
  • Vi har tagit ett första steg att använda LIBRIS webbsök som frontend mot flera datakällor

Steg två innehåller många utmaningar och det krävs en hel del användartester för att inte hamna i användbarhetsfällor. Samtidigt är det en sådan berikning av LIBRIS med artiklar (och övrigt SwePub-material), fulltexter, abstracts att det är värt en kraftansträngning. Och inte minst att skaffa sig erfarenhet att arbeta mot flera datakällor!

Kommentera september 25, 2009 Kristin

SwePub bara fortsätter..

Semestern är definitivt slut för oss och nu när Sondera är lanserad kan vi koncentrera oss på SwePub-arbetet. SwePub-projektet går ut på att samla den svenska vetenskapliga publiceringen från lärosätenas publiceringsdatabaser och integrera den i LIBRIS-miljön. Samt erbjuda en nationell nod för alla som vill harvesta den svenska publiceringen.

Det finns en första alfa-version, en första iteration, på att få flödet harvesting, konvertering, laddning i LIBRIS att fungera. Vi arbetar hela tiden med justeringar och förbättringar. Än så länge gör vi det i testmiljö, men för den nyfikne kan man idag se 95 662 SwePub-poster i en SwePub-databas.

De senaste veckorna har vi koncentrerat oss på att harvesta in data, testa, analysera, ge feedback till lärosätena. Och dessa har bistått oss fantastiskt! Nu finns poster från

- Högskolan Dalarna
- Blekinge tekniska högskola
- Högskolan i Malmö
- Göteborgs Universitet
- Luleå tekniska universitet
- Lunds universitet
- Högskolan i Kristianstad
- Linköpings universitet
- Örebro universitet
- Umeå universite
- Uppsala universite
- Gymnastik- och idrottshögskolan
- Högskolan i Gävle
- Högskolan i Kalmar
- Högskolan i Skövde
- Högskolan Jönköping
- Högskolan Väst
- Växjö universtiet
- Karlstad univ
- Kungliga tekniska högskolan
- Mälardalens högskola
- Mittuniversitetet
- Nordiska afrikainstitutet
- Södertörns högskola
- Stockholms universitet

Det fortsatta arbetet kommer att handla om integrering i ”vanliga” LIBRIS, deduplicering, merging och inte minst det viktigaste – designdelarna. Alla delar är nog så utmanande, men så ska det ju vara!

Kommentera augusti 30, 2009 Kristin

ELAG rapport I, workshop Mashups

Förutom det fantastiska vädret här i Bratislava (tänk svensk högsommar!) kan man glädjas åt bra workshops. Vi har alla valt olika – kanske kan vi hoppas på rapporter från alla?

Lite kort från min workshop om mashups (och då automatiskt lite om öppna API:er). Vi har samlat alla bra länkar och info (t.ex listor över öppna API:er) på Google.

Provade även att bygga mashups mha av pipes. Yahoo har ett lättanvänt verktyg, Yahoo pipes, med kraftfulla enkla byggkomponenter för icke-programmerare som jag. Man kan publicera/dela med sig av sina pipes och på så sätt få både ideer och stöd. Kul!

Det slovakiska tangentbordet och jag är inte riktigt goda vänner så här får rapporten sluta för den här gången.

Kommentera april 23, 2009 Kristin

Föregående sida


Kategorier

Senaste kommentarer

Arkiv

Verktyg

Informationskanaler