Google AI stellt Health Acoustic Representations (HeAR) vor: Ein Bioakustisches Grundlagenmodell, das Forschern dabei helfen soll, Modelle zu entwickeln, die menschliche Geräusche erkennen und frühzeitige Krankheitszeichen erkennen können.

Google AI stellt Health Acoustic Representations (HeAR) vor: Ein Bioakustisches Grundlagenmodell, das Forschern dabei helfen soll, Modelle zu entwickeln, die menschliche Geräusche erkennen und frühzeitige Krankheitszeichen erkennen können.

Gesundheitsakustik, zu der Geräusche wie Husten und Atmen gehören, enthält wertvolle Gesundheitsinformationen, die jedoch verstärkt in medizinischem maschinellem Lernen genutzt werden müssen. Bestehende Deep-Learning-Modelle für diese Akustik sind oft auf bestimmte Aufgaben beschränkt, was ihre Generalisierbarkeit einschränkt. Nicht-semantische Sprachattribute können bei der Erkennung von Emotionen und der Erkennung von Krankheiten wie Parkinson und Alzheimer helfen. Kürzliche Fortschritte in der selbstüberwachten Lernmethode (SSL) versprechen, Modelle zu ermöglichen, robuste, allgemeine Repräsentationen aus großen, unbeschrifteten Daten zu lernen. Während SSL in Bereichen wie Vision und Sprache vorangeschritten ist, bleibt seine Anwendung auf Gesundheitsakustik weitgehend unerforscht.

Forscher von Google Research und dem Center of Infectious Disease Research in Sambia haben HeAR entwickelt, ein skalierbares Deep-Learning-System, das auf SSL basiert. HeAR nutzt maskierte Autoencoder, die auf einem massiven Datensatz von 313 Millionen zweisekündigen Audio-Clips trainiert sind. Das Modell etabliert sich als State-of-the-Art für Gesundheits-Audio-Einbettungen und übertrifft bei 33 Gesundheitsakustikaufgaben aus 6 Datensätzen herausragend. HeARs niederdimensionale Repräsentationen, die aus SSL abgeleitet sind, zeigten eine starke Übertragbarkeit und Generalisierung auf out-of-distribution-Daten und übertrafen bestehende Modelle in Funktionen wie der Erkennung von Gesundheitsereignissen, Husteninferenz und Spirometrie in verschiedenen Datensätzen.

SSL hat sich zu einem wichtigen Ansatz für die Entwicklung von allgemeinen Repräsentationen aus großen, nicht annotierten Datensätzen entwickelt. Verschiedene SSL-Methoden, wie kontrastive (SimCLR, BYOL) und generative (MAE), haben sich besonders im Audioprozess weiterentwickelt. Kürzliche Fortschritte bei SSL-basierten Audio-Encodern, wie Wav2vec 2.0 und AudioMAE, haben das Lernen von Sprachrepräsentationen erheblich verbessert. Während nicht-semantische Sprach-SSL, wie TRILL und FRILL, einige Entwicklungen erfahren hat, müssen nicht-semantische Gesundheitsakustika noch erforscht werden. Diese Studie stellt einen generativen SSL-Framework (MAE) vor, das sich auf nicht-semantische Gesundheitsakustika konzentriert und darauf abzielt, die Generalisierung in Gesundheitsüberwachungs- und Krankheitserkennungsaufgaben zu verbessern.

HeAR besteht aus drei Hauptkomponenten: Datenkuration (einschließlich eines Gesundheitsakustikereigniserkenners), einem universellen Training zur Entwicklung eines Audioencoders und einer aufgabenbezogenen Bewertung unter Verwendung der trainierten Einbettungen. Das System kodiert zweisekündige Audio-Clips, um Einbettungen für nachgelagerte Aufgaben zu generieren. Der Gesundheitsakustik-Ereigniserkenner, ein CNN, identifiziert sechs nichtsprachliche Gesundheitsereignisse wie Husten und Atmen. HeAR wird auf einem großen Datensatz (YT-NS) von 313,3 Millionen Audio-Clips mittels maskierter Autoencoder trainiert. Es wird über verschiedene Gesundheitsakustikaufgaben benchmarked und zeigt eine überlegene Leistung im Vergleich zu State-of-the-Art-Audio-Encodern wie TRILL, FRILL und CLAP.

HeAR übertraf andere Modelle bei 33 Aufgaben auf sechs Datensätzen, erreichte den höchsten mittleren reziproken Rang (0,708) und belegte in 17 Aufgaben den ersten Platz. Während CLAP bei der Gesundheitsakustik-Erkennung (MRR=0,846) hervorragte, belegte HeAR trotz Nichtnutzung von FSD50K zum Training den zweiten Platz (MRR=0,538). Die Leistung von HeAR sank bei längeren Sequenzen, wahrscheinlich aufgrund seiner festen Sinus-Positionscodierungen. HeAR übertraf konsequent Baselines in mehreren Kategorien für Husteninferenz- und Spirometrieaufgaben, zeigte Robustheit und minimale Leistungsvariationen bei verschiedenen Aufnahmegeräten, insbesondere in herausfordernden Datensätzen wie CIDRZ und SpiroSmart.

Die Studie stellte das HeAR-System vor und bewertete es, das einen Gesundheitsakustik-Ereigniserkenner mit einem generativen Lern-Audioencoder kombiniert, der auf YT-NS ohne Expertendatenkuration trainiert wurde. Das System zeigte eine starke Leistung bei Gesundheitsakustikaufgaben, wie der Klassifizierung von Tuberkulose anhand von Hustengeräuschen und der Lungenfunktionsüberwachung über Smartphone-Audio. Das selbstüberwachte Lernmodell von HeAR erwies sich trotz begrenzter Daten als effektiv, zeigte Robustheit bei verschiedenen Aufnahmegeräten. Allerdings sind weitere Validierungen notwendig, insbesondere im Hinblick auf Datensatzvoreingenommenheiten und Generalisierungsgrenzen. Zukünftige Forschungen sollten die Feinabstimmung des Modells, die Verarbeitung am Gerät und die Bias-Minderung untersuchen.