OpenAI heeft een nieuw AI-model genaamd GPT-4o (“o” voor “omni”) geïntroduceerd. Het belangrijkste nieuws is dat dit model tekst, audio en beeld in real-time kan verwerken en dat de geavanceerde mogelijkheden via ChatGPT gratis beschikbaar worden gesteld. Het model is ontworpen om veel sneller en natuurlijker te communiceren, met een gemiddelde reactietijd op audio-input van 320 milliseconden, wat in de buurt komt van menselijke reactiesnelheden.
GPT-4o is een stap naar een meer natuurlijke mens-computerinteractie. Het kan emoties in een stem herkennen en hierop reageren, real-time vertalen, visuele informatie van een camera interpreteren en helpen met problemen die tekst, beeld en geluid combineren. Een belangrijk verschil met eerdere systemen is dat GPT-4o alle soorten input (tekst, audio, visie) direct in één enkel neuraal netwerk verwerkt. Voorheen werden audio en beeld eerst omgezet naar tekst, wat vertraging en nuanceverlies veroorzaakte. Deze end-to-end architectuur leidt tot snellere en rijkere interacties.
De nieuwe mogelijkheden worden geïntegreerd in ChatGPT. Gebruikers kunnen straks via de app een gesprek voeren waarbij de AI direct reageert op wat je zegt, onderbroken kan worden en emotie in haar stem kan leggen. Ook kan ChatGPT live beelden van je telefooncamera analyseren, bijvoorbeeld om een wiskundeprobleem op papier op te lossen of code te debuggen die je op een scherm laat zien. De gratis versie van ChatGPT krijgt toegang tot deze GPT-4o mogelijkheden, zij het met bepaalde gebruikerslimieten. ChatGPT Plus-abonnees behouden een hoger gebruikersquotum.
Voor ontwikkelaars betekent dit dat de nieuwe GPT-4o API beschikbaar komt. Deze is twee keer zo snel en half zo duur als de vorige GPT-4 Turbo API, terwijl hij beter presteert op niet-Engelse talen. Dit maakt het ontwikkelen van applicaties met geavanceerde multimodale functies goedkoper en efficiënter.
Voor ondernemers en professionals zet deze ontwikkeling de druk op om na te denken over hoe real-time, multimodale AI hun klantinteracties, interne workflows of producten kan verbeteren. De gratis beschikbaarheid via ChatGPT democratiseert toegang tot geavanceerde AI, wat kan leiden tot bredere adoptie en nieuwe verwachtingen van gebruikers. De snellere en goedkopere API biedt kansen om AI-toepassingen kosteneffectiever te integreren, bijvoorbeeld in klantenservice, real-time vertaling of visuele inspectie. Het is een signaal dat AI-interactie steeds meer een vloeiend, natuurlijk gesprek wordt in plaats van een trage vraag-en-antwoord cyclus.
Bron: OpenAI