KI-skolen

Her er de viktigste og nyttigste KI-verktøyene

Bør du bruke ChatGPT, Claude eller Gemini — eller DeepSeek? Hvilke andre KI-verktøy finnes, og hva er de forskjellige verktøyene best på? Det forklarer professor Morten Goodwin i tredje del av Khronos KI-skole.

KI-generert Superhelt-tegneserietegning av en forsker som har mange AI-verktøy tilgjengelig.
Illustrasjonen er laget av ChatGPT, som fikk følgende instruks: Tegn en forsker som har mange AI-verktøy tilgjengelig. Superhelt-tegneserietegning. 16:9. Oppdatert instruks: La det være en kvinnelig superhelt.
Publisert Sist oppdatert

Kunstig intelligens (KI) har gått fra en fjern fremtidsdrøm til en uunnværlig brikke i akademia. Dette er den tredje artikkelen i KI-skolen, hvor vi utforsker verktøy som kan strømlinjeforme, og forhåpentligvis løfte, arbeidet i forsknings- og utdanningssektoren. Trenger du en grunnleggende innføring i KI, kan den første artikkelen være et nyttig utgangspunkt. Er du usikker på hvordan du best snakker med KI, gir den andre artikkelen praktiske råd.

FAKTA

Khronos KI-skole

  • Professor Morten Goodwin har på oppdrag for Khrono laget en KI-skole i form av en artikkelserie som vil bli publisert i Khrono de nærmeste ukene.
  • Målet er å vise hvordan kunstig intelligens kan forenkle og fornye den akademiske hverdagen.
  • Målgruppen er undervisere, forskere og administrativt ansatte ved universiteter og høgskoler.
  • Den første artikkel i serien ga en grunnleggende forståelse av KI og språkmodeller, og inneholdt praktiske eksempler på bruksområder for både forskere, undervisere og administrativt ansatte.
  • Den  andre artikkelen i serien handlet om prompts, eller instrukser, og hvordan man «snakker» med en kunstig intelligens.
  • Tredje og fjerde artikkel i serien handler om de forskjellige KI-verktøyene på markedet.  Tredje artikkel, som du leser nå,  tar for seg språkmodeller, RAG-modeller og verktøy som gir innsikt i artikler. Fjerde artikkel vil ta for seg verktøy for litteratursøk, språkvask og illustrasjoner / lysbilder.

KI har allerede satt sitt preg på akademia, og påvirkningen vokser for hver dag. I denne delen av KI-skolen får du veiledning til å navigere klokere gjennom jungelen av KI-verktøy, fra språkmodeller til analyseverktøy for akademiske artikler. Senere i KI-skolen vil vi utforske andre typer KI-verktøy, blant annet visuelle løsninger og programmer som kan generere hele presentasjoner.

Språkmodeller – fra teksthjelp til analyse

Det finnes et bredt spekter av språkmodeller, og felles for dem alle er at de bygger på samtaleprinsippet: Du kommuniserer med dem ved å skrive instruksjoner, eller såkalte «prompts», og får svar tilbake. ChatGPT er språkmodellem som utvilsomt har fått mest oppmerksomhet, men det finnes mange andre modeller som hver har sine unike fordeler.

Konkurransen mellom språkmodeller er knallhard, med alternativer som Anthropic Claude, Google Gemini og den rykende ferske DeepSeek R1 er blant de mest kjente. Til tross for at de fungerer på lignende vis, er kampen om å være den beste intens.

Alle disse systemene har innebygde barrierer for å hindre hatefulle utsagn, spredning av farlig informasjon og generering av skadelig kode. Noen ganger fungerer disse sikkerhetstiltakene utmerket, men de kan også gi uventede utslag – som når en samtale om Nazi-Tyskland brått dreies mot mangfold, eller en diskusjon om kinesisk politikk filtreres bort.

Ingen språkmodell er fullstendig nøytral. Den er skapt med en hensikt, trent på et bestemt datasett og formet av utviklernes prioriteringer og verdier. Derfor er det verdifullt å vite hvem som står bak en modell, da dette gir innsikt i hva den kan – og ikke kan – levere.

Claude, Gemini og ChatGPT er jevngode på mange områder, og de nyeste versjonene kappes om å levere bedre nøyaktighet og effektivitet enn konkurrentene. For de fleste bruksområder spiller det liten rolle hvilken av dem du velger.

Min erfaring er at ChatGPT og Gemini ofte er mer konservative og forsiktige, mens Claude har en tendens til å pushe grensene litt mer. Valget mellom disse modellene er litt som valget mellom Cola og Pepsi, eller kaffe og te. Det finnes små forskjeller i smak og stil, men i bunn og grunn er de ganske like, og hvilken du foretrekker, handler mest om personlig preferanse.

Betalingsversjoner er best

Det er også verdt å merke seg at betalingsversjonene overgår de gratis alternativene med god margin. For ChatGPT kan du bruke GPT-3 uten kostnad, men hvis du vil ha tilgang til GPT-4 og de nyere versjonene som o1 og den helt ferske o3, må du betale.

Ønsker du å analysere dokumenter, tolke eller generere bilder, føre en muntlig samtale, komponere musikk eller få modellen til å resonnere på et høyere nivå, krever det betalingsversjonen.

Kort sagt: Jo mer avansert bruk, desto større sannsynlighet for at lommeboka må åpnes.

Elon Musks KI

Grok, eid og styrt av Elon Musk, og nært knyttet til X (som en gang het Twitter) opererer i omtrent samme liga som ChatGPT, Claude og Gemini. Den skiller seg ut ved å være langt mer ubegrenset. 

KI-generert bilde av Jonas Gahr Støre med MAGA-camps
KI-generert bilde av Jonas Gahr Støre med MAGA-camps

I motsetning til de andre språkmodellene har Grok ingen innebygde sperrer som begrenser hva du kan spørre om eller få hjelp til. Ønsker du å lage en mobbekampanje eller skrive et script for å hacke Stortinget, vil Grok i teorien kunne bistå. Dette er selvsagt ikke noe vi anbefaler.

For eksempel kan du med Grok til å tegne vår statsminister men med en MAGA caps med følgende instruks: «Draw a picture of the norwegian prime minister jonas gahr støre , but with a trump hat». Dette ville ingen av de andre språkmodellene tillatt.

Det er tydelig at denne friheten kan misbrukes, men samtidig har denne friheten også sine fordeler. Skal du for eksempel analysere banneord, studere hatefulle tweets eller grave i sensitive temaer som ofte utløser sikkerhetsmekanismer i andre modeller, kan Grok gi deg større rom til å utføre oppgaven uten hindringer. I slike tilfeller kan det være mer hensiktsmessig å bruke Grok enn ChatGPT eller Gemini, som ofte vil sette foten ned i frykt for regelbrudd.

FAKTA

KI-verktøy

Språkmodeller:

  • ChatGPT: En avansert språkmodell fra OpenAI som brukes til alt fra tekstforståelse til analyse.
  • Claude: En språkmodell fra Anthropic kjent for sin sikkerhet og evne til lange kontekster.
  • Gemini: En språkmodell fra Google med sterke multimodale evner.
  • DeepSeek R1 : En kinesiskutviklet open-source KI-modell.
  • Grok: Elon Musks KI-modell som prioriterer frihet og lite innholdsbegrensninger.
  • CoPilot: Flere språkmodeller fra Microsoft blant annet for assistanse i arbeidsoppgaver.
  • NORA.LLM: Norsk KI-modell fra UiO utviklet med vekt på skandinavisk språk.
  • NORLLM:  NTNU sin bidrag til norskutviklet KI med fokus på forskning og utdanning.
  • LM Studio: En plattform for å kjøre språkmodeller lokalt på egen maskin.

RAG-modeller:

  • Perplexity: Kombinerer KI og sanntidssøk for mer pålitelige svar.
  • Storm: Stanford-utviklet KI som genererer artikler basert på henting og bearbeiding av data.

Innsikt i artikler:

  • Notebook LM : KI fra Google for dyp analyse av tekst og forskningsartikler.
  • Humata: Analyserer dokumenter og trekker ut nøkkelinformasjon.
  • Afforai : KI-verktøy for rask innsikt i store tekstmengder.

Kina utfordret

Så langt har de mest kjente språkmodellene blitt levert av amerikanske teknologiselskaper, men DeepSeek R1, utviklet i Kina, har tatt verden på senga som en uventet utfordrer. Denne modellen utmerker seg ikke bare ved å være teknologisk avansert, men også ved å gi brukerne større kontroll over personvernet, noe som kanskje er overraskende for mange. 

En av de største fordelene med DeepSeek er at den kan lastes ned og kjøres lokalt, og koden kan etterprøves og sjekkes, da den er såkalt open source. Det krever litt teknisk kompetanse, men ved hjelp av LM Studio burde mange klare det. Dette gir en fleksibilitet og uavhengighet som skiller den fra modeller som ChatGPT og Gemini.

Men DeepSeek har også en mørkere side. Lite er kjent om hvilke data modellen er trent på, eller om disse er samlet inn på etisk vis.

I tillegg nekter den å svare på sensitive spørsmål, som om protestene på Tiananmen-plassen i 1989 eller hungersnøden under Maos kulturrevolusjon. Dette tyder på at den er sensurert, sannsynligvis som et resultat av begrensningene i treningsdataene.

Selv om selve språkmodellen er open source og dermed kan granskes for sikkerhetsutfordringer av hvem som helst, gir det oss langt mindre innsikt i hvordan appen fungerer. Hvilke data som samles inn, hvor den lagres, hvem den deles med, og om noe rapporteres til kinesiske myndigheter, er det ingen åpenhet om.

Denne mangelen på åpenhet gjør det forståelig at flere advarer mot å bruke DeepSeek. Om du likevel velger å ta den i bruk, bør det gjøres med varsomhet.

Personlig har jeg opplevd å bli utestengt fra DeepSeek. Den fungerte utmerket i noen dager, men plutselig var innlogging umulig, og nå står jeg på venteliste for å få en ny bruker. Om dette skyldes mine gjentatte spørsmål om kommunismens skyggesider, eller om det bare er en tilfeldighet, vet jeg ikke.

Bortsett fra denne uklarheten finnes det ingen kjente bruksbegrensninger for DeepSeek, noe som gjør den til en kraftfull, men samtidig omstridt aktør i KI-landskapet. I motsetning til de fleste andre store språkmodeller er den dessuten helt gratis.

Microsoft — personlig KI-assistent

Microsoft CoPilot er ikke én enkelt språkmodell, men et samspill av flere modeller, mange av dem utviklet i samarbeid med og basert på ChatGPT. Når du bruker CoPilot, er det i praksis samme teknologi som driver ChatGPT. Programvareutviklere er allerede kjent med GitHub CoPilot, som har blitt en uunnværlig hjelp for å skrive programkode mer effektivt.

En av de store fordelene med Microsoft CoPilot er hvordan den kan integreres sømløst i brukerens system. Med riktig oppsett kan CoPilot få tilgang til e-postene dine, lære seg din skrivestil og svare på vegne av deg, direkte i Outlook.

Den kan også gi deg avansert støtte i andre programmer som Excel, Word og PowerPoint.

For eksempel kan den hjelpe deg med å generere komplekse formler i Excel, skrive profesjonelle dokumenter i Word eller lage overbevisende presentasjoner i PowerPoint, alt med en personlig tilpasning basert på dine vaner og preferanser.

Dette dype integrasjonsnivået gjør CoPilot til en del av den større Microsoft 365-pakken, og det fungerer som en slags personlig assistent som lærer hva du liker og hvordan du jobber. Om du skriver e-poster, setter opp regneark eller finpusser en presentasjon, har CoPilot potensial til å spare tid og øke presisjonen i arbeidsflyten din.

En annen fordel er muligheten til å ha databehandleravtaler med Microsoft, på samme måte som du antagelig allerede har med Teams. Dette gir langt bedre kontroll over personopplysninger enn for eksempel med ChatGPT. Spørsmål rundt personvern vil vi utforske grundigere senere i KI-skolen, men her har Copilot et klart fortrinn.

Norske språkmodeller

Det finnes også flere norske språkmodeller, hvor de mest fremtredende er NORA.LLM, utviklet i hovedsak av Universitetet i Oslo, og NORLLM, som kommer fra NTNU. Begge er solide modeller basert på open source-varianter som blant annet Mistral, og de representerer et imponerende bidrag fra norsk forskning.

Til tross for dette er de norske modellene fortsatt langt unna å matche de store internasjonale språkmodellene. 

Sammenlignet med giganter som ChatGPT, Gemini, Claude og DeepSeek, ligger de norske modellene flere hestehoder bak når det gjelder brukervennlighet, fleksibilitet og presisjon. 

Selv om NORA.LLM og NORLLM fungerer godt til spesifikke oppgaver, er det vanskelig å få dem til å være like effektive og allsidige.

Forhåpentligvis vil dette endre seg i fremtiden, etter hvert som norsk forskning får tilgang til mer ressurser og data. De norske modellene har absolutt potensial til å spille en større rolle, spesielt i oppgaver som krever språklig og kulturell tilpasning til norske forhold.

Språkmodellenes ranking

Det finnes selvsagt også en rekke andre språkmodeller, men her er ikke plass til å nevne alle. Hvis du ønsker en oppdatert oversikt over hvilke språkmodeller som ligger i teten, finnes det en rangering her.

I skrivende stund troner varianter av Gemini på første- og andreplass, med ChatGPT på tredje og DeepSeek på fjerde. Men rangeringen er dynamisk, og neste uke kan situasjonen være helt annerledes.

For de fleste oppgaver er det ikke så nøye om språkmodellen du bruker ligger øverst på denne rangeringen, eller et stykke ned.

Tenk deg at du skal åpne en hermetikkboks på kjøkkenet. Om boksåpneren din er kåret til verdens beste, betyr lite – så lenge den gjør jobben raskt og uten problemer.

På samme måte er det mindre viktig hvilken språkmodell som er teknisk raskest eller mest avansert, så lenge den du bruker fungerer godt til dine behov.

Selv om de store språkmodellene forstår norsk nesten like godt som engelsk, er mye av den øvrige KI-teknologien fortsatt best tilpasset engelsk. Det betyr at mange av verktøyene som omtales videre i artikkelen fungerer best – og noen utelukkende – på engelsk, og at eksempler og ressurser ofte er språklig begrenset.

Retrieve Augment Generate (RAG)

En av de største utfordringene med språkmodeller, uansett hvilken du velger, er fenomenet kjent som hallusinasjoner. Det skjer når modellen begynner å generere tekst som virker overbevisende, men som ikke stemmer overens med virkeligheten. Modellen «tror» den leverer sann informasjon, men fortsetter i et sammensurium av feil og oppspinn.

Slike hallusinasjoner fører til en rekke merkverdige utslag i språkmodeller, men det vi forskere merker mest, er hvordan den fabrikkerer fakta, dikter opp referanser og til og med konstruerer falske sitater og kilder.

I akademiske kontekster, hvor nøyaktighet og etterprøvbarhet er avgjørende, er slike hallusinasjoner et betydelig problem. 

Modellen kan også gi urealistiske løsninger på praktiske problemer eller påstå at noe er mulig, når det i virkeligheten er helt urealistisk. Vi skal snakke mer om KI-hallusinasjoner, og andre utfordringer, i senere deler av KI-skolen.

RAG-modeller (Retrieve, Augment, Generate) representerer et skritt mot å løse problemet med hallusinasjoner i språkmodeller. I motsetning til tradisjonelle språkmodeller, som både genererer og validerer informasjon, fungerer RAG-modeller som et samarbeidsverk mellom en database og en språkmodell. 

Kort forklart henter de informasjon fra en ekstern database, bruker denne som utgangspunkt, og genererer deretter svar. Dermed overlater modellen ansvaret for fakta til databasen, i stedet for å stole på sin egen «hukommelse», slik en modell som ChatGPT gjør alene.

Et eksempel på en slik modell er Perplexity. Når du ber Perplexity om akademisk hjelp – for eksempel: «Give me a list of recent papers on deep learning and skin cancer megalomania, and compare it to the expertise of medical doctors» – vil den først søke i en database med vitenskapelige og andre relevante artikler. Deretter sendes denne informasjonen til en språkmodell, som for eksempel ChatGPT, som har som oppgave å formulere et presist og faktabasert svar.

Dette reduserer risikoen for oppdiktet informasjon betydelig, fordi alle fakta er forankret i innholdet fra databasen. Samtidig gir det brukeren tilgang til oppdaterte kilder, noe som gjør RAG-modeller spesielt nyttige for forskningsbaserte oppgaver eller andre situasjoner der nøyaktighet er avgjørende.

Med instruksen «Give me a list of recent papers on deep learning and skin cancer megalomania, and compare it to the expertise of medical doctors» får vi følgende svar:

Recent research has shown significant advancements in the application of deep learning for skin cancer diagnosis, often comparing the performance of artificial intelligence (AI) systems with that of medical professionals. Here's a list of recent papers on this topic:

1. "Artificial Intelligence is Better than Dermatologists at Diagnosing Skin Cancer" (2025)

  • Published in Annals of Oncology
  • Key findings: A deep learning convolutional neural network (CNN) outperformed 58 international dermatologists in detecting melanomas and correctly identifying benign moles

2."Enhanced skin cancer diagnosis using optimized CNN architecture" (2024)

  • Published in a medical journal
  • Key findings: A sophisticated CNN model achieved 97.78% accuracy in skin lesion classification, demonstrating its potential as a robust tool for early detection and classification of skin cancer)

3. "Experience And Dermoscopy Improve Skin Cancer Diagnosis Accuracy" (2024)

  • Published in EMJ Dermatology
  • Key findings: While not focused on AI, this study provides a benchmark for human performance, showing that experienced dermatologists using dermoscopy achieved higher accuracy in diagnosing skin cancer compared to primary care physicians

4. "Human-AI interaction in skin cancer diagnosis: a systematic review" (2024)

  • Published in Nature
  • Key findings: AI assistance improved diagnostic performance for all clinicians, with the largest improvement seen among non-dermatologists

5. "The Role of Artificial Intelligence in the Diagnosis of Melanoma" (2024)

  • Published in PMC
  • Key findings: AI techniques, particularly CNNs, demonstrated high accuracy in classifying dermoscopic images, often matching or surpassing dermatologists' performance

6. "AI improves accuracy of skin cancer diagnoses in Stanford Medicine study" (2024)

  • Published by Stanford Medicine
  • Key findings: AI algorithms improved skin cancer diagnostic accuracy for doctors, nurse practitioners, and dermatologists, with non-dermatologists showing the most significant improvement

These studies collectively demonstrate that deep learning models are increasingly matching or surpassing the diagnostic accuracy of medical professionals, particularly in the field of skin cancer detection. The research highlights the potential of AI as a valuable tool to assist both specialists and general practitioners in improving early detection and diagnosis of skin cancer.

 
Den store fordelen med RAG-modeller er altså at de lar deg som forsker gå inn og kvalitetssikre innholdet, omtrent på samme måte som du ville lest en godt skrevet oversiktsartikkel innenfor ditt fagfelt. Du kan eksplisitt spørre modellen om hvilke deler av teksten som kommer fra hvilke kilder, og dermed vurdere påliteligheten til hver enkelt del av svaret.

Selv om modellene fremdeles kan gjøre feil og til tider komme med oppspinn, leverer de i det minste «oppspinn med referanser». Det gjør det enklere å identifisere og korrigere feil, da du kan spore tilbake til de opprinnelige kildene.

For meg minner dette om å lese en rapport fra en veldig dyktig, ekstremt arbeidsom, men litt slurvete student. Innsatsen er imponerende, men detaljene trenger alltid en grundig gjennomgang.

Perplexity gir deg også muligheten til å organiserer litteraturen den har funnet. Vi kan fortsette dialogen og spørre den om å sette opp forskningen om hudkreftanalyse i en oversiktiglig tabell.

Instruks:

Write it as a table with the accuracy of the algorithm and how many patients were part of each study.

 
Perplexity svarer:

Here's a table summarizing the accuracy of skin cancer detection algorithms and the number of patients involved in each study:

Study Accuracy Number of Patients / Images
Integrated Deep Learning Model [1]92.27 %Not specified (HAM10000 dataset used)
Hybrid Dynamic Bayesian Deep Learning [1]88.95 % - 90.96 %Two datasets, sizes not specified
Deep Learning on Dermoscopic Images [2]89.3% ± 1.1% (4 conditions) 94.5% ± 0.9% (benign vs. malignant)57,536 dermoscopic images
Hybrid U-Net and MobileNet-V3398.86 %Not specified
Stanford Medicine AI Study [4]81.1 % sensitivity 86.1 % specificity67,000+ evaluations
VGG-16 Model [5]88 %Not specified
CNN on ISIC 2018 Dataset [5]83.2 %3,533 images
Malignant Melanoma Classification [6]80.06 %Not specified

[1] https://arxiv.org/html/2410.14489v1
[2] https://jbpe.sums.ac.ir/article_48805.html
[3] https://www.nature.com/articles/s41598-024-54212-8
[4] https://med.stanford.edu/news/all-news/2024/04/ai-skin-diagnosis.html
[5] https://pmc.ncbi.nlm.nih.gov/articles/PMC10252190/
[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC10571810/

 
En annen interessant funksjon er muligheten til å laste opp egne artikler og få modellen til å finne relevant litteratur. Dette bringer oss raskt nærmere en algoritme som kan utarbeide litteraturgjennomgangen i en vitenskapelig artikkel, en oppgave som hittil har vært både tidkrevende og møysommelig.

Kanskje er dette et steg mot en forskningshverdag der mer tid kan brukes på analyse og diskusjon av egne resultater, mens modellen håndterer sorteringen av faglitteraturen.

Storm fra Stanford er en annen RAG-modell som kan generere imponerende Wikipedia-lignende artikler om helt nye temaer. 

Med instruksen «Write an article about AI in the public sector, specifically what has been tested in practice» søker den først etter informasjon, og så produserer den en lettlest og velformulert tekst om kunstig intelligens i offentlig sektor, en artikkel som like gjerne kunne vært hentet fra Wikipedia.

For undervisere kan Storm være et nyttig verktøy for å raskt skape oppdatert faglig innhold. En foreleser i digitalisering av offentlig sektor kan for eksempel bruke modellen til å generere en oversikt over hvordan KI er tatt i bruk i ulike land, nesten som et kapittel i en lærebok. 

Dette gir studentene et ferskt og konkret grunnlag for diskusjon, samtidig som det sparer underviseren for tid på å samle informasjon fra flere kilder.

Raskere innsikt i kompliserte artikler

KI-verktøy kan også brukes til å forstå og få oversikt over komplekse artikler. Google Notebook LM er et kraftig hjelpemidde som bruker Gemini-språkmodellenl for forskere og undervisere som arbeider med store mengder tekst og krevende temaer.

En forsker som analyserer en omfattende samling vitenskapelige artikler, kan laste opp dokumentene til Notebook LM og få automatiske sammendrag av hver enkelt artikkel. Dette sparer tid og gir en rask oversikt over hovedfunnene. 

En historiker som studerer primærkilder, kan bruke verktøyet til å trekke ut sentrale datoer, hendelser og navn, noe som forenkler analysearbeidet og gjør det lettere å strukturere informasjonen. 

En jurist som jobber med omfattende rettsdokumenter, kan bruke Notebook LM til å identifisere relevante paragrafer og rettspraksis, noe som effektiviserer forberedelsen av juridiske argumenter. 

En lege som gjennomgår medisinske forskningsrapporter, kan få KI til å trekke ut nøkkelpunkter om behandlingsmetoder, bivirkninger og statistiske resultater, slik at ny kunnskap raskere kan omsettes til praksis.

Hvis jeg laster opp en av mine artikler, hvor hovedforfatteren er min PhD-student Morten Grundetjern, «NER Explainability Framework: Utilizing LIME to Enhance Clarity and Robustness in Named Entity Recognition»,  kan Notebook LM gjøre mer enn bare å oppsummere innholdet.

Hvis jeg for eksempel ikke forstår MRS-metricen som introduseres i artikkelen, kan jeg spørre Notebook LM med instruksen «Explain the MRS metric to me.»

Da svarer Notebook LM:

The Misspelling Robustness Score (MRS) is a metric designed to evaluate how well Named Entity Recognition (NER) models perform when faced with misspelled words, particularly within entity names. It is a key component of the NER Explainability Framework (NEF), complementing the local explanations provided by LIME with a global view of model behavior.

Here's a breakdown of the MRS and its evaluation methodology:

Purpose of MRS: The primary goal of the MRS is to quantify an NER model's resilience to orthographic variations, specifically misspellings. This is crucial because real-world text often contains typographical errors that can degrade model performance.

It addresses a gap in existing robustness metrics by focusing specifically on the impact of misspellings, which are common in entity names.

MRS Calculation:

To calculate the MRS, two datasets are created:

Set A: Contains entities with their original, correctly spelled forms.

Set B: Contains the same entities with introduced misspellings.

Misspellings are generated using a variety of techniques, including:

Skip: Removing a character at a random position.

Swap: Swapping a character with the one immediately following it.

Duplicate: Duplicating a character at a random position.

Substitute: Replacing a character with a random letter.

Insert: Inserting a random letter at a random position.

Phonetic: Replacing parts of the word based on common phonetic substitutions.

The MRS is then calculated as the ratio of correct entity identifications in Set B (misspelled) to the correct identifications in Set A (original):

MRS = (Correct identifications in Set B) / (Correct identifications in Set A)

MRS values range from 0 to 1, where a score of 1 indicates perfect resilience to misspellings and a lower score reflects a greater vulnerability to misspellings.

Key aspects of the MRS:

Targeted Evaluation: The MRS is specifically designed to isolate the effects of misspellings, unlike other metrics that may conflate various types of input perturbations.

Real-World Simulation: By generating misspellings similar to those found in real-world text (typographical errors), MRS provides a practical evaluation of a model’s robustness.

Contextual Understanding: While the focus is on misspellings, the MRS can also reveal how the model’s understanding of context is impacted when entities are misspelled.

Complementary Metric: The MRS complements existing robustness metrics by providing a focused measure of how a model handles orthographic variations.

Findings and Applications of the MRS:

The MRS has been used to evaluate the robustness of various NER models, including Stanza, SpaCy, Flair, and RoBERTa. The results showed that models like Flair and RoBERTa, which utilize contextual embeddings, are more resilient to misspellings than models like SpaCy.

The MRS is used within the NEF framework to inform targeted improvements. For instance, after observing the SpaCy model's low MRS, it was fine-tuned on misspelled data, resulting in a significant increase in its MRS. This demonstrates the practical value of using the MRS to identify and address weaknesses in NER models.

In summary, the MRS is a specialized metric that quantifies an NER model's ability to handle misspellings by comparing performance on correctly spelled and misspelled inputs. It provides a clear and actionable measure of a model's robustness, enabling targeted improvements.

 
Kanskje det mest verdifulle er at Notebook LM ikke bare oppsummerer innholdet, men også gir direkte lenker til hvor i artikkelen informasjonen er hentet. Dette betyr at du kan følge forklaringen samtidig som du leser originalteksten og kvalitetssikrer innsikten. 

Hvis et nøkkelbegrep eller en påstand vekker interesse, kan du umiddelbart klikke deg ned til riktig avsnitt for å se konteksten og vurdere tolkningen selv.

For hver artikkel du laster opp, kan du også få et presist sammendrag, en liste over nøkkelbegreper med forklaringer, noe som gjør det langt enklere å lese tekster fulle av nye fagtermer.

Automatisk fagfellevurdering

Notebook LM gjør det også mulig å få en automatisk fagfellevurdering, som fremhever både styrker og svakheter ved artikkelen.

For eksempel: I vurderingen av NER Explainability Framework-artikkelen, trekker systemet fram at en av de viktigste innovasjonene ligger i hvordan NER-rammeverket NEF omformer oppgaven med sekvensmerking i navnegjenkjenning til et klassifikasjonsproblem. Dette gjøres ved å generere målrettede endringer i input, med fokus på spesifikke ord i teksten. Samtidig peker den på forbedringsområder, som at MRS-metrikken (som måler robusthet mot feilstavinger) er begrenset – den tar ikke høyde for andre typer språklige variasjoner, som synonymer eller omskrivinger. 

Den påpeker også at selv om NEF er designet for å være effektiv, kan genereringen og klassifiseringen av flere tekstendringer fortsatt være ressurskrevende, særlig ved store datasett.

Dette viser hvor nær vi er ved å ha et verktøy som kan gi solid støtte i fagfellevurderinger. Automatiserte analyser som dette kan selvsagt ikke erstatte menneskelig fagekspertise, men de kan gi forskere et verdifullt utgangspunkt for rask evaluering av vitenskapelige artikler.

En annen måte å se det på er at vi nå har en slags automatisert fagfellevurderer. Når jeg skriver en vitenskapelig artikkel, kan jeg laste den opp og umiddelbart få innsikt i svakheter og forbedringspunkter. Jeg trenger ikke lenger vente i månedsvis på tilbakemeldinger fra fagfeller, vurderingen skjer øyeblikkelig.

Dette er en ørliten revolusjon i forskningsprosessen. I stedet for å sende inn en artikkel og vente på en dom, kan forskere raskt identifisere forbedringsområder og styrke argumentasjonen før innsendelse. Resultatet er en mer dynamisk og effektiv måte å kvalitetssikre forskning på.

Studieveiledning og oppgaver

Google Notebook LM kan også brukes til å lage en studieveiledning og oppgaver med spørsmål basert på en tekst.

For eksempel: Etter å ha analysert NER Explainability Framework-artikkelen, kan verktøyet generere relevante spørsmål som tester forståelsen av innholdet.

Instruks:

Answer the following questions in 2-3 sentences each.

What is the core problem that the Named Entity Recognition Explainability Framework (NEF) seeks to address?

How does NEF transform the NER task into a classification problem to enable the use of LIME?

What is the Misspelling Robustness Score (MRS) designed to measure, and what does a high MRS indicate?

 
Som gir følgende fasit:

The core problem NEF addresses is the lack of explainability and robustness in current NER models, particularly their vulnerability to lexical variations and misspellings. These models often function as "black boxes," making it difficult to understand how they make their predictions.

NEF transforms the sequence-based NER task into a multi-classification problem by perturbing the input text, focusing on specific words, and then classifying each perturbed version by the model. This allows LIME to analyze how these perturbations affect the model’s tagging decisions.

The MRS is designed to measure an NER model's resilience to misspellings in entity names. A high MRS, with a value closer to 1, indicates that the model is highly robust and retains most of its accuracy when confronted with misspelled inputs.2

 
I tillegg kan du spørre om drøftingsspørsmål, for eksempel:

Discuss the interrelationship between model explainability and robustness in the context of Natural Language Processing, using the concepts introduced in the NEF framework and the pooling attention model as examples. How do these methods address the limitations of existing models?

 
Google Notebook LM tar oss dermed et steg nærmere helautomatisert eksamensgenerering basert på faginnhold.

En underviser kan laste opp en hel fagbok og automatisk generere ukentlige oppgaver for hvert kapittel, både korte quiz-spørsmål og mer omfattende essayoppgaver.

For eksempel kan en fysikkforeleser laste opp en lærebok og få generert flervalgsoppgaver om Newtons lover for førsteårsstudentene. 

En filosofilærer kan derimot laste opp et utvalg kildetekster og få forslag til diskusjonsspørsmål om etikk og moral, tilpasset pensum.

Igjen, det er på ingen måte en full erstatter for fagkompetanse, men det gjør det langt enklere for undervisere å skape varierte og målrettede vurderingsformer uten å måtte utforme hver oppgave manuelt.

Generer en podkast

Det mest fascinerende med Notebook LM er kanskje at du kan få den til å lage en egen podkast basert på en tekst. Hvis du foretrekker å lære gjennom lyd i stedet for å lese, kan du be verktøyet generere en dialog mellom to syntetiske personer som diskuterer artikkelen.

Resultatet blir en overraskende god tilpasset, innsiktsfull podkast, ofte langt mer relevant enn mange av de generiske podkastene som finnes der ute. 

Her er det en femtenminutters podkast fra NER Explainability Framework-artikkelen.

Analyse og oversikt

Mange vil hevde med rette av den virkelige styrken til Notebook LM er at den på en effektiv måte gir oversikt over et helt fagfelt ved å analysere og sammenstille informasjon fra flere artikler samtidig. Du kan laste opp en samling forskningsartikler, og verktøyet vil automatisk generere sammendrag, trekke ut nøkkelbegreper med forklaringer og identifisere hovedtrender i forskningen. 

Dette gjør det enklere å se sammenhenger mellom ulike studier, forstå hvordan feltet har utviklet seg, og oppdage viktige forskningsspørsmål. 

I stedet for å lese hundrevis av sider manuelt, kan du raskt få innsikt i de mest sentrale argumentene, metodene og funnene, noe som sparer tid og gir et mer helhetlig perspektiv på temaet du undersøker.

En konkurrent til Notebook LM er Humata. Når jeg laster opp samme artikkel som ovenfor, kan jeg spørre med instruksen:

How are misspellings improved in this article?

 
Og den svarer:

In the article, misspellings are improved by fine-tuning the SpaCy model on a subset of sentences where all PER tags were intentionally misspelled. This fine-tuning process significantly enhanced the model's Misspelling Robustness Score (MRS), reducing the accuracy loss from 24 % to 6.5 % [3][4]. The fine-tuning led to a 17.5 % increase in robustness against misspellings, demonstrating the effectiveness of targeted model adjustments informed by the NEF framework [6][5].

­
På samme måte som Google Notebook LM gir Humata konkrete henvisninger til kildematerialet. Mens du får svar, kan du samtidig se hvor i artikkelen informasjonen er hentet fra. 

Der Google Notebook LM er mer rettet mot akademia, har Humata et tydeligere fokus på forretningsverdenen ved å tilby analyser av kontrakter, oppsummeringer av interne dokumenter og rask innsikt i komplekse rapporter.

Andre verktøy

Forskning, undervisning og læring skjer nå i et landskap der KI-verktøy ikke bare bistår, men former selve arbeidsprosessene. Oppgaver som tidligere var langsomme og møysommelige, kan nå løses raskere, mer presist og med dypere innsikt med språkmodeller. KI er ikke lenger bare et hjelpemiddel i akademia – det har blitt en aktiv medskaper.

Men vi må ikke glemme hvem som skal ha styringen. Det er forskerne som setter rammene, stiller de kritiske spørsmålene og trekker de viktige konklusjonene. Verktøyene må forbli nettopp det – verktøy, ikke beslutningstakere. Dette spørsmålet om kontroll og makt skal vi utforske grundigere i senere deler av KI-skolen.

Før vi kommer dit, skal vi se nærmere på andre KI-verktøy som kan gi forskning og undervisning et løft. Illustrasjoner og figurer kan gi liv til abstrakte konsepter, mens KI-drevet språkvask og automatisert presentasjonsdesign frigjør tid til det faglige innholdet.

I neste del av KI-skolen skal vi undersøke hvordan disse verktøyene kan brukes til å skape skarpere tekster, sterkere visuelle fremstillinger og mer overbevisende presentasjoner.

Powered by Labrador CMS