Die Fähigkeit eines KI-Systems, Informationen aus verschiedenen Arten von Eingaben zu verarbeiten und zu kombinieren, wie Texte, Bilder, Audio oder Video. Multimodale Systeme können komplexere Aufgaben bewältigen, die mehrere Eingabetypen erfordern.