Goda resultat för ordböjning i Tvärsök-projektet

Projektet Tvärsök som Euroling drivit med delfinansiering av VINNOVA har resulterat i en vetenskaplig artikel med titeln ”Experiments to investigate the connection between case distribution and topical relevance of search terms in an information retrieval setting”. Artikeln kommer att presenteras på LREC 2008. Det är den största internationella datorlingvistiska konferensen som i år går av stapeln i Marrakech i Marocko, i maj.

Projektet Tvärsök går ut på att användaren ska kunna formulera sin sökfråga på ett språk men även kunna få träffar på texter skrivna på andra språk. Detta gör det betydligt lättare att hitta rätt information om texterna är på ett språk som användaren förstår men inte behärskar i skrift. Som svensk är det t.ex. enkelt att förstå skriven norska och danska men betydligt svåra att formulera en vettig sökfråga.

Den nya artikeln undersöker hur olika kraftfulla språkteknologiska ansatser kan användas för att förbättra sökningen på de morfologiskt komplicerade språken tyska och finska. Slutsatsen är att den metod Euroling använder i sökmotorn SiteSeeker för just tyska och finska fungerar bättre än väntat.

LREC-artikeln beskriver även hur finska termers kasusform samvarierar med relevans.

Mina medförfattare är Dr. Jussi Karlgren och Bart Jongejan från SICS respektive CST-Köpenhamns universitet.

Detta inlägg postades i kategorin Forskning, Sökning, Tvärsök och taggad ,

Skriv en kommentar

Din epostadress delas eller publiceras aldrig Obligatoriska fält är markerade med *

*
*

Du kan använda dessa HTML-taggar och attribut: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>