Språkdata – korleis kan vi hauste og dele?
Denne rettleiaren beskriv ulike typar språkdata som offentleg sektor kan dele, og kva som bør gjerast med dei for å sikre at dei blir tilgjengelege for gjenbruk.
Rettleiaren er utarbeidd i samarbeid mellom Nasjonalbiblioteket v/Språkbanken, Språkrådet og Digitaliseringsdirektoratet. Han er eit supplement til Veileder for tilgjengeliggjøring av åpne data.
Kva er språkdata?
Med språkdata meiner vi både skriftlege data og taledata. Det kan vere til dømes lister over omgrep og fleirspråklege terminologilister, rapportar, saksdokument, nettsider, omsetjingar og andre tekstar. Det kan òg vere taleopptak.
Slike data er avgjerande for å utvikle språkteknologi på norsk. Språkteknologi effektiviserer og betrar offentlege tenester. Det er dessutan ein føresetnad for at norsk skal vere eit samfunnsberande språk også i åra som kjem. For å få til dette er det viktig at vi alle deler digital tekst og tale, som vi beskriv i dei ulike avsnitta nedanfor.
Mange språkteknologiske løysingar treng områdespesifikke data for å fungere skikkeleg.
Maskinomsetjing av eit sjøfartsdokument føreset tilgang til både maritime fagordlister og tidlegare omsetjingar av sjøfartstekst. Ein praterobot for skatteetaten må kjenne til både omgrepsapparatet i etaten og dei mindre presise orda som brukarane av roboten kan tenkjast å nytte i daglegtalen.
Kvar sektor må altså sørgje for språkdata frå sitt fagområde.
Omsetjingar og omsetjingsminne
For å trene opp automatisk omsetjing nyttar ein tidlegare omsette tekstar, ofte lagra i omsetjingsminne. Eit omsetjingsminne er ein database som lagrar setningar, avsnitt eller segment med omsett tekst, og høver spesielt godt til å nyttast om att i nye, automatiske omsetjingar.
Den automatiske omsetjinga blir betre dess større og meir variert datagrunnlag ho har å arbeide med.
Det er behov for både engelsk-norsk-omsetjingar og omsetjingar mellom nynorsk og bokmål. Også omsetjingar mellom norsk og andre språk bør delast.
Språkbanken samlar inn og legg til rette for omsetjingar slik at dei kan nyttast i blant anna EU si automatiske omsetjingsteneste eTranslation.
Dette kan du gjere
Offentlege verksemder som produserer omsetjingar og omsetjingsminne sjølve, kan levere dei direkte til Språkbanken (sprakbanken@nb.no).
Dersom verksemda set ut omsetjingsoppdrag til omsetjingsbyrå, kan Språkbanken få omsetjingsminna direkte frå dei. Då bør rammeavtalen sikre at den offentlege verksemda har eigarskap til omsetjingsminna, og at dei kan leverast vidare til Språkbanken.
Omgrepsapparat, termlister og ordlister
Fleire verksemder jobbar systematisk med terminologi og utarbeider omgrepsapparat som er av interesse for andre verksemder og for utviklarar.
Termlister og omgrepskatalogar er nødvendige for å utvikle språkteknologiske løysingar innan eit fagområde. Dersom dei områdespesifikke termane ikkje er tilgjengelege, vil språkteknologiske løysingar ikkje verke innanfor fagområdet.
Fagspesifikke, fleirspråklege ordlister blir nytta i språkteknologien til bruk for og utvikling av automatisk omsetjing, søketenester og digitale assistentar. Tilgjengeleggjering av slike ordlister gjer det enklare å sikre ein konsekvent bruk av norsk fagterminologi i omsetjingar.
Dette kan du gjere
Del omgrepskatalogar i Felles datakatalog på data.norge.no. Termlistene og ordlistene kan også leverast til Språkbanken (sprakbanken@nb.no) eller leggjast ut som datasett i data.norge.no.
Data frå språkteknologiske utviklingsprosjekt
Data og programvare frå språkteknologiske utviklingsprosjekt, for eksempel treningsdata og leksikon frå taleteknologiprosjekt og praterobotar, kan og bør brukast om att. Dette gjeld både data frå interne utviklingsprosjekt og data frå prosjekt ei offentleg verksemd har bestilt frå andre aktørar.
Dette kan du gjere
Data frå eiga verksemd skal leverast til Språkbanken. Når det offentlege bestiller språkteknologiske utviklingsprosjekt, skal bestillaren ha med i kontrakten/avtalen at nye data høyrer til den offentlege verksemda og skal leverast vidare til Språkbanken (sprakbanken@nb.no).
Offentleg, publisert tekst
Som ein del av samarbeidet med Språkrådet om å utvikle ei automatisk rapporteringsløysing for målbruk i statleg sektor («Målfrid»), haustar Språkbanken inn nettsidene til statlege verksemder. Delar av materialet blir tilgjengeleg på Språkbanken sine sider, blant anna parallelltekst (bokmål/nynorsk-engelsk og bokmål-nynorsk), ordlister og nynorsk tekst.
Dette kan du gjere
Nettsider bør merkast med ein internasjonalt anerkjend standard lisens, for eksempel Creative Commons Zero (CC0). For språkteknologiske formål er det dei språklege strukturane og ikkje informasjonsinnhaldet som er av interesse.
Vi ynskjer meir språkdata
Norske språkdata blir samla inn og tilgjengeleggjorde i Språkbanken. Språkbanken ligg i Nasjonalbiblioteket og er eit nasjonalt ressurssenter for datasett og verktøy til utvikling av norsk språkteknologi.
Offentlege språkdata eignar seg godt til gjenbruk både på grunn av det generelle prinsippet om opne data og fordi slike data ofte ikkje har restriksjonar knytte til opphavsrett.
Dei siste åra har det vore auka merksemd om behovet for språkdata. Blant anna peikar Nasjonal strategi for kunstig intelligens på at: «Det er grunn til å tro at det offentlige har langt mer data som kan brukes til utvikling av språkteknologi enn sektoren selv er klar over. Regjeringen vil derfor bidra til å øke bevisstheten om språkdata og språkressurser i det offentlige, blant annet gjennom å omtale slike data spesielt i digitaliseringsrundskrivet.» (jf. digitaliseringsrundskrivet 05.01.2021, kap. 1.2)
Ei undersøking utført av IPSOS på vegner av Språkrådet og Digitaliseringsdirektoratet vinteren 2020 syner at halvparten av offentlege verksemder treng meir rådgiving om språkteknologi. Språkrådet gir offentlege etatar råd om norsk i språkteknologiske produkt.