Bewertung des Entwicklungsstands des ländlichen Tourismus unter Verwendung eines mit BERT verbesserten Deep-Learning-Modells und des BP-Algorithmus

Bewertung des Entwicklungsstands des ländlichen Tourismus unter Verwendung eines mit BERT verbesserten Deep-Learning-Modells und des BP-Algorithmus

Datenkollektion für Sentiment-Analysen im Bereich des ländlichen Tourismus

Datasets Sammlung für Sentimentanalyse im Tourismus

Einführung

In der heutigen digitalen Welt gewinnen Nutzerbewertungen zunehmend an Bedeutung, insbesondere in der Tourismusbranche. Die Analyse von Gefühlen aus diesen Bewertungen kann tiefe Einblicke in die Erfahrungen der Reisenden bieten. Dieser Blogbeitrag beleuchtet die verwendeten Datensätze in der Forschung und deren Beitrag zur Sentimentanalyse im Kontext des ländlichen Tourismus.

Verwendete Datensätze

SemEval2020 Laptop Dataset

Der erste Datensatz stammt aus der SemEval2020 Laptop-Kategorie. Dieses öffentlich zugängliche Dataset enthält Nutzerbewertungen zu Laptops in englischer Sprache und klassifiziert die Sentiments in positiv, negativ und neutral. Diese Segmentierung ermöglicht eine differenzierte Analyse der Meinungen der Nutzer. Detaillierte statistische Informationen zu diesem Datensatz finden Sie in Tabelle 3. (Link zu Tabelle 3)

Tourist_F Dataset

Zusätzlich wird der Datensatz Tourist_F verwendet, der aus gescrapten Bewertungen von Touristenattraktionen auf der beliebten Ctrip-Website stammt. Bei der Aufteilung in Trainings- und Validierungssets wurde eine Freigabe von 25 % der Gesamtdaten als Validierungsset berücksichtigt. Detaillierte Informationen zu diesem Datensatz sind in Tabelle 4 abrufbar. (Link zu Tabelle 4)

Wichtige Merkmale des Tourist_F Datasets

  1. Stichprobenverteilung: Der Datensatz umfasst drei Sentiment-Klassen: positiv, negativ und neutral. Die Verteilung der Daten ist relativ ausgewogen, was sicherstellt, dass während des Modelltrainings eine breite Basis an Meinungen berücksichtigt wird.

  2. Auswahlkriterien: Die Auswahl der Daten erfolgte unter Berücksichtigung von Diversity, Sentiment-Intensität und Textlänge, um eine effektive Analyse der emotionalen Tendenzen zu gewährleisten.

  3. Datenaufteilung und Validierung: Die Aufteilung des Datensatzes in Trainings- und Validierungssets erfolgt im Verhältnis 75-25 %, um eine Überanpassung während des Trainings zu vermeiden. Dies trägt dazu bei, dass das Modell die Variationen der Emotionen im ländlichen Tourismus präzise erfassen kann.

Experimentelle Umgebung und Parameter

Die Experimente fanden in einer MacOS-Umgebung mit einem Apple M1 Chip statt. Der BERT-Modellansatz wurde für die Sentimentanalyse gewählt und nutzte die Hugging Face-Implementierung. Die Parameter wie maximale Sequenzlänge, Wortembedding-Dimension usw. sind entscheidend für die Leistungsfähigkeit des Modells.

Analyse der Leistungsevaluation

Die Leistung des vorgeschlagenen Modells wurde anhand der Genauigkeit und des F1-Scores bewertet. Diese Metriken geben Aufschluss darüber, wie gut das Modell die verschiedenen Sentiment-Klassen identifizieren kann.

Ergebnisanalyse

Die experimentellen Ergebnisse zeigen, dass das DCM-BERT-Modell signifikante Vorteile im Vergleich zu traditionellen LSTM-Modellen bietet. Insbesondere erzielte das DCM-BERT-Modell eine Genauigkeit von 84,33 % und einen F1-Score von 85,33 % auf dem Laptop-Datensatz, was seine überlegene Fähigkeit zur Textklassifizierung unterstreicht.

Im Vergleich dazu erzielten ältere Modelle wie das LSTM weitaus geringere Leistungskennzahlen, was ihre Unausgereiftheit in der Analyse komplexer Sentiment-Daten verdeutlicht.

Fazit

Die Analyse der Datensätze und der Ergebnisse hat gezeigt, dass das DCM-BERT-Modell äußerst effektiv bei der Verarbeitung und Analyse von Sentiments im ländlichen Tourismus ist. Mit seiner überlegenen Genauigkeit und Effizienz stellt es eine wertvolle Ressource für Entscheidungsträger in der Tourismusbranche dar, um datengetriebene Strategien zur Verbesserung des Tourismus zu entwickeln.

Durch die Integration fortschrittlicher Technologien wie BERT, BiGRU und TextCNN zeigt dieses Modell, wie moderne Algorithmen das Verständnis von Nutzerdaten revolutionieren können. Dies ist ein bedeutender Schritt in der Entwicklung nachhaltiger Tourismusstrategien, die auf den realen Bedürfnissen und Erfahrungen der Reisenden basieren.

Für tiefere Einblicke in die Datensätze und experimentellen Ergebnisse besuchen Sie bitte die verlinkten Tabellen und Abbildungen in der vollständigen Studie.