Kaffe + kaka = sant

De senaste veckorna har vi arbetat med att fylla Cherry med innehåll. Förutom den bibliografiska informationen, som vi hämtar från Libris XL, använder vi också data från annat håll. Vi läser in till exempel innehållsbeskrivningar, recensioner, bloggtexter, provläsningsavsnitt, och kopplar dem till den bibliografiska informationen. Texterna analyseras sedan för att hitta liknande och relaterade titlar.

<teknobabbel>

Familjeindex

För att skapa maximal flexibilitet i vårt index, vad gäller datakällor och typer av data, har vi utformat ett index som består av två olika sorters poster: bibliografiska poster från LibrisXL, och innehållsposter, baserade på data från andra källor. Kopplingen dem emellan är ett fält i innehållsposten, som anger vilken bibliografisk post som är innehållspostens “förälder”. Den här lösningen tillåter en bibliografisk post att ha hur många “barn” som helst; en populär bok kan potentiellt ha innehållsbeskrivning, utdrag ur fulltexten, och åtskilliga recensioner från olika källor.

Genom att separera typerna kan vi dels uppdatera föräldraposterna utan att det behöver påverka barnposterna, dels lägga till och ta bort barn, förändra utformningen på barnen, och lägga till nya typer av barn, oberoende av föräldraposterna.
Kopplingen mellan föräldrar och barn ger samma sökmöjligheter vi skulle haft om den bibliografiska informationen och innehållet lagts i samma post, men ger också möjlighet att söka över de olika posterna utan att ta hänsyn till deras släktskap. Exempelvis har vi möjlighet att filtrera titlar med avseende på data i deras recensioner, och vice versa, söka i enbart innehållsbeskrivningar vars föräldrar har ett visst utgivningsår, men även sortera recensioner baserat på deras innehåll, utan att sorteringen påverkas av föräldrarna.

Kaffe + kaka

Inom språkteknologin talar vi om begreppet ordrum, alltså inom vilket rum, eller kontext, ett ord förekommer. Genom att räkna ut ett ords rum, kan man t.ex. hitta synonymer och nära förknippade begrepp, eller precisera ordets betydelse. Vi kan tänka oss att i texter som innehåller ordet kaffe, förekommer ofta även kaka, fika och sockerberoende, liksom ordet egentid ofta samförekommer med spa, hårinpackning och toalettbesök; tåg med bagage, station och försening; systemutvecklare med källare, läsk och introvert.

Ordrummet för kaffe är de ord som är vanliga i samma dokument som ordet kaffe. En rå lista över ord med hög förekomst ihop med kaffe, skulle alltid bli ungefär att, en, och, men, så, en, för, osv. Kort sagt, ord som är så vanliga att de inte säger något om sin kontext, s.k. stoppord. Vi måste alltså normalisera listan genom att vikta ner ord som är vanliga överallt, och därför inte är signifikanta för just kaffe-dokumenten.

Resultatet blir alternativa söktermer som skulle kunna ta fram dokument utanför räckvidden för ordet kaffe, men förhoppningsvis inom samma ämne.

</teknobabbel>

Vi har frågat bokbloggare, recensionssidor, tidningsredaktioner, boktipssidor med flera, om de vill bidra med information i Cherry. Hittills har följande svarat att vi får använda deras data.

Lyrans Noblesser

Feelgoodbiblioteket

Kulturloggen

Fiktiviteter

Bookbirds

Nellas bokplanet

Carolina läser

Smakprov.se

Boktipset

Ytterligare källor är på gång och det finns plats för ännu fler. Har du idéer om bloggar, tipssidor eller något annat som du tycker borde vara med är du välkommen att lämna förslag i vårt idéforum.

Kaffe-Kakor

  4 comments for “Kaffe + kaka = sant

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *