Kodsnack 576 - Jag ger dig ett svar på måndag, med Vilhelm von Ehrenheim
2024-04-02 05:26Fredrik snackar med Vilhelm von Ehrenheim om teknik som kan tänkas påverka det vi kallar AI framöver. Vilka tekniker är intressanta, och vad innebär de?
Vi diskuterar bland annat:
- Vad innebär kontext för språkmodeller?
- Multimodalitet - kunna resonera om text och bild samtidigt
- Kunskapgrafer och RAG - tekniker för att försöka få svar som är “mer rätt” och har mindre risk att verka påhittade inom specifika sammanhang
- Blir det fler stora generella modeller framöver, eller fler små och specialiserade?
- Kunskapsgrafer och sökmotorer. Det pågår mycket utveckling kring att bättre knyta fakta och information från specifika områden - till exempel ditt företags situation just nu - till mer generellt tränade modeller, för att man inte ska behöva specialträna en modell för varje specifikt område, och inte heller behöva träna om varje gång omvärlden förändras
- Agenter - sätt för modeller att interagera med som omgivning och utföra saker
- Resonerande - vad menar man med det? Hur mäter man det? Och inte minst: hur tränar man egentligen modeller för att bli bättre på det?
- Kommer det stora modellerna bli ännu större? Gör mer träningsdata mer nytta?
- Och som avslutning: finns det några andra intressanta approacher som vi inte hör så mycket om för att det stora språkmodellerna just nu får all uppmärksamhet och investeringar?
Ett stort tack till Cloudnet som sponsrar vår VPS!
Har du kommentarer, frågor eller tips? Vi är @kodsnack, @thieta, @krig, och @bjoreman på Mastodon, har en sida på Facebook och epostas på info@kodsnack.se om du vill skriva längre. Vi läser allt som skickas.
Gillar du Kodsnack får du hemskt gärna recensera oss i iTunes! Du kan också stödja podden genom att ge oss en kaffe (eller två!) på Ko-fi, eller handla något i vår butik.
Länkar
- Vilhelm
- QA.tech
- 554 - Tidigare avsnitt med mer om vad QA.tech gör
- Kontext när det gäller språkmodeller
- Gemini lärde sig ett språk i kontext
- Multimodalitet - att hantera exempelvis text och bild samtidigt
- Computer vision
- NLP - Natural language processing
- Paper från Apple om multimodala modeller
- Transformerarkitekturen dagens modeller använder
- Kunskapsgrafer
- RAG - retrieval augmented generation
- ULTRA - modell för grafresonerande
- Perplexity
- Sentimentmodellering
- Whisper
- Hugging face
- Hugging face introduktion till transformers
- Agenter
- Microsoft snackade agenter på nittiotalet
- Langchain
- Langchain-agenter
- Reinforcement learning
- Crewai - skapar agenter med olika personligheter
- OpenAI:s function calling-API
- Claude - agent-XML-funktioner
- Claude 3
- Reasoning
- MINDACT
- Aktiv inferens och Free engery principle
Titlar
- AI lite mer konkret och framöver
- Vad pågår mer konkret
- Fler parametrar, mer av allt
- Resonera om mer än bara text
- Resonera om hur saker ser ut
- Här är bra, relevant data
- Slumpmässiga tokens från en distribution
- Jag ger dig ett svar på måndag
- Komplexa kunskapssystem
- Någon som jobbar autonomt för ens egen räkning
- Lära en robot öppna en dörr
- Prova handtaget
- Agentstrukturen
- Väldigt mycket kontext