Ledig stilling

Nasjonalbiblioteket

AI utviklere - Taleteknologi

Bibliotek

Seksjon for språkmodeller

Nasjonalbiblioteket utlyser nå to faste stillinger som AI-utviklere, lokalisert i Oslo eller Mo i Rana. 

Vi ser etter kandidater med fullførte doktorgrader som ønsker å arbeide gjennom hele modellutviklingslivssyklusen for taleteknologi på norsk og samisk. Den ene stillingen fokuserer på norsk taleteknologi, og den andre på samisk taleteknologi.


Vi søker kandidater med solid kompetanse innen taleteknologi og praktisk erfaring gjennom hele modellutviklingssyklusen for både automatisk talegjenkjenning (ASR) og tekst-til-tale (TTS), inkludert dataforberedelse og kuratering, storskala opplæring, evaluering, finjustering, tilpasning, post-training og modellutrulling.
Nasjonalbiblioteket samarbeider tett med Sigma2, som tilbyr den datakraften som trengs for vårt arbeid.

Kvalifikasjoner:

Vi søker kandidater med doktorgrad i informatikk, taleteknologi, maskinlæring, datalingvistikk eller et nært beslektet felt, sammen med relevant erfaring innen utvikling av talemodeller.

 

  • Det forventes at kandidaten har gode ferdigheter i muntlig og skriftlig norsk og/eller ett eller flere samiske språk.
  • Solid kompetanse innen taleteknologi samt innen utvikling, opplæring, finjustering og evaluering av moderne LLM-baserte ASR- og TTS-modeller
  • Det kreves kunnskap om moderne verktøykjeder og rammeverk for talemodeller, inkludert PyTorch, Hugging Face og ofte brukte ASR/TTS-trenings- og evalueringsarbeidsflyter
  • Det kreves kunnskap med erfaring med storskala datasettforberedelse, filtrering, justering, normalisering og kvalitetskontroll for tale- og tekstdata
  • Det kreves kunnskap om High Performance Computing (HPC)-plattformer, inkludert distribuerte treningsmiljøer og arbeidsflyter i produksjonsskala
  • Solid erfaring med Slurm og andre oppgave-orkestratorer for store opplæringsoppdrag
  • Kompetanse i docker og Apptainer/Singularity kreves
  • Erfaring med trening og optimalisering av store talemodeller med flere noder, er nødvendig
  • Noe kunnskap om metoder etter opplæring kreves, inkludert overvåket finjustering og modelltilpasning for oppgaver nedstrøms
  • For den norske stillingen er inngående kunnskap om norsk taleteknologiressurser, utfordringer og evaluering nødvendig
  • For den samiske stillingen er inngående kunnskap om samisk taleteknologiressurser, utfordringer og evaluering nødvendig
  • Erfaring fra lignende forsknings- eller produksjonsmiljøer er ønskelig

    Det er videre nødvendig med kunnskap innen:
  • ASR-modellutvikling, dekoding, feilanalyse og evalueringsmetodikker
  • TTS-modellutvikling, tilpasning av stemmene, evaluering av syntesekvalitet og hensyn til implementering
  • Innsamling av taledata, segmentering, transkripsjonsarbeidsflyter, tekstnormalisering og uttale eller leksikonhåndtering
  • Python, Git og samarbeidende utviklingspraksiser ved bruk av moderne versjonskontrollplattformer som GitHub
  • Distribuert opplæring, eksperimentsporing, reproduserbarhet og robust pipeline-design
  • Deltakelse i open source prosjekter vil bli vektlagt

 

Sikkerhetskrav
Stillingen krever at du oppfyller virksomhetens krav til personellsikkerhet. Kravene for denne stillingen tilsvarer sikkerhetsklarering og autorisasjon på HEMMELIG nivå.

Personlige egenskaper:

  • Strukturert og presis
  • Gode samarbeidsevner
  • Evne til å kommunisere klart om utfordringer og løsninger innen taleteknologi
  • Evne til å jobbe selvstendig og effektivt
  • Personlig egnethet vil bli vektlagt

Vi tilbyr:

  • To faste stillinger. En stilling fokuserte på norsk taleteknologi og en stilling fokuserte på samisk taleteknologi
  • Fast tilsetting i stillingskode 1109 Forsker II. Aktuelt lønnsspenn for denne stillingen er for tiden kr. 700 000,- til kr. 850 000,- pr. år avhengig av kvalifikasjoner, med mulighet for høyere lønn for spesielt kvalifiserte søkere.
  • Fleksitid og betalt overtid
  • Sommertid og betalt lunsjpause (7 timer, sommer og 7 t 45 min., vinter)
  • Medlemskap i Statens pensjonskasse
  • Nasjonalbiblioteket er en IA-virksomhet