Es gibt ein wachsendes Interesse an der Erforschung und Anwendung von Large Language Models, die jedoch nur textuelle Daten verarbeiten können, was ihre Nützlichkeit für einige Anwendungen einschränkt. Im Gegensatz dazu können Menschen Informationen über verschiedene Modalitäten hinweg verarbeiten, wie ...