Corpus
In de kunstmatige intelligentie is een corpus een grote verzameling van tekst- of spraakgegevens die zijn verzameld voor onderzoek en analyse. Het kan bestaan uit geschreven teksten, gesproken woorden, afbeeldingen, video’s, of een combinatie daarvan.
Corpus om menselijke taal te analyseren
Een corpus wordt vaak gebruikt om de computer taal te leren begrijpen en menselijke taal te analyseren. Het kan bijvoorbeeld worden gebruikt om taalmodellen te trainen die kunnen worden gebruikt voor natuurlijke taalverwerkingstaken, zoals automatische vertaling of spraakherkenning.
Corpora zijn vaak samengesteld uit teksten uit verschillende bronnen en worden geannoteerd met metadata, zoals part-of-speech-tags, entiteitsherkenning en syntactische structuur. Het gebruik van een corpus is een belangrijk hulpmiddel voor taalkundigen en computerwetenschappers om taal en communicatie beter te begrijpen en de prestaties van taalmodellen te verbeteren.