Kodsnack 576 - Jag ger dig ett svar på måndag, med Vilhelm von Ehrenheim

2024-04-02 05:26

Ladda ner (mp3) Öppna länkar i nya flikar

Fredrik snackar med Vilhelm von Ehrenheim om teknik som kan tänkas påverka det vi kallar AI framöver. Vilka tekniker är intressanta, och vad innebär de?

Vi diskuterar bland annat:

Vad innebär kontext för språkmodeller?
Multimodalitet - kunna resonera om text och bild samtidigt
Kunskapgrafer och RAG - tekniker för att försöka få svar som är “mer rätt” och har mindre risk att verka påhittade inom specifika sammanhang
Blir det fler stora generella modeller framöver, eller fler små och specialiserade?
Kunskapsgrafer och sökmotorer. Det pågår mycket utveckling kring att bättre knyta fakta och information från specifika områden - till exempel ditt företags situation just nu - till mer generellt tränade modeller, för att man inte ska behöva specialträna en modell för varje specifikt område, och inte heller behöva träna om varje gång omvärlden förändras
Agenter - sätt för modeller att interagera med som omgivning och utföra saker
Resonerande - vad menar man med det? Hur mäter man det? Och inte minst: hur tränar man egentligen modeller för att bli bättre på det?
Kommer det stora modellerna bli ännu större? Gör mer träningsdata mer nytta?
Och som avslutning: finns det några andra intressanta approacher som vi inte hör så mycket om för att det stora språkmodellerna just nu får all uppmärksamhet och investeringar?

Ett stort tack till Cloudnet som sponsrar vår VPS!

Har du kommentarer, frågor eller tips? Vi är @kodsnack, @thieta, @krig, och @bjoreman på Mastodon, har en sida på Facebook och epostas på info@kodsnack.se om du vill skriva längre. Vi läser allt som skickas.

Gillar du Kodsnack får du hemskt gärna recensera oss i iTunes! Du kan också stödja podden genom att ge oss en kaffe (eller två!) på Ko-fi, eller handla något i vår butik.

Länkar

Vilhelm
QA.tech
554 - Tidigare avsnitt med mer om vad QA.tech gör
Kontext när det gäller språkmodeller
Gemini lärde sig ett språk i kontext
Multimodalitet - att hantera exempelvis text och bild samtidigt
Computer vision
NLP - Natural language processing
Paper från Apple om multimodala modeller
Transformerarkitekturen dagens modeller använder
Kunskapsgrafer
RAG - retrieval augmented generation
ULTRA - modell för grafresonerande
Perplexity
Sentimentmodellering
Whisper
Hugging face
Hugging face introduktion till transformers
Agenter
Microsoft snackade agenter på nittiotalet
Langchain
Langchain-agenter
Reinforcement learning
Crewai - skapar agenter med olika personligheter
OpenAI:s function calling-API
Claude - agent-XML-funktioner
Claude 3
Reasoning
MINDACT
Aktiv inferens och Free engery principle

Titlar

AI lite mer konkret och framöver
Vad pågår mer konkret
Fler parametrar, mer av allt
Resonera om mer än bara text
Resonera om hur saker ser ut
Här är bra, relevant data
Slumpmässiga tokens från en distribution
Jag ger dig ett svar på måndag
Komplexa kunskapssystem
Någon som jobbar autonomt för ens egen räkning
Lära en robot öppna en dörr
Prova handtaget
Agentstrukturen
Väldigt mycket kontext