Wir nutzen sogenannte "Cookies", um unsere Webseite auf Ihre Bedürfnisse anzupassen. Durch die weitere Nutzung der Webseite stimmen Sie der Nutzung von Cookies zu. Datenschutzerklärung
Wandeln Sie Ihre Video- und Audiodateien mithilfe unserer fortschrittlichen KI-Software automatisch in Text um.
Unsere Schreibkräfte erstellen und perfektionieren Ihre Transkriptionen.
Fügen Sie mit unserem Untertitelgenerator automatisch Untertitel und Captions zu Ihren Videos hinzu.
Originaluntertitel oder übersetzte Untertitel werden von unseren erfahrenen Schreibkräften erstellt und bearbeitet.
Übersetzte Untertitel in unvergleichlicher Qualität.
Fügen Sie unsere Speech-to-Text API zu Ihrem Stack hinzu oder fragen Sie ein maßgeschneidertes Modell an.
Untertitel und Transkripte in höchster Qualität für einen besseren Arbeitsablauf
Hier finden Sie die passende Lösung für Ihr Unternehmen.
Transkriptionen und Untertitel für Ihre Branche
Alles, was Sie über Sprache-zu-Text wissen müssen
Amberscript unterstützt mehr als 20 Video-/Audioformate, darunter AVI, FLV, WMA, AAC, MOV, MP4 und mehr als 38 Sprachen.
Exportieren Sie Ihr Video mit Untertiteln, oder untertiteln Sie es separat als VTT.
Amberscript ist das Werkzeug der Wahl für branchenführende Marken.
Wir gestalten Audio barrierefrei
In diesem Blogbeitrag wird der Prozess der Diarisierung beschrieben, das heißt das Hinzufügen von Sprechertags zu einer Audiodatei für die Transkription. Es werden Techniken zur Arbeit mit Sprechervektoren und eine einfache Methode zur Durchführung mit unserem Tool beschrieben.
Das Hinzufügen von Sprechertags zur Transkription oder die Beantwortung der Frage „Wer hat wann gesprochen?“ wird Diarisierung bezeichnet.
Diese Aufgabe ist nicht so einfach, wie es scheint. Algorithmen haben nicht annähernd das gleiche Verständnis von Klang, wie wir es haben. Es geht darum, die Anzahl der Sprecher:innen und den Zeitpunkt, zu dem sie gesprochen haben, anhand des Schallwellensignals zu ermitteln.
Außerdem ist es ein notwendiger Schritt in automatischen Spracherkennungssystemen, da es uns ermöglicht, die Texttranskription zu organisieren und zusätzliche Informationen über den Ton zu erhalten.
Bei Amberscript haben wir verschiedene Ansätze analysiert und den besten davon in unser Produkt integriert. In diesem Beitrag finden Sie einige Elemente der bestehenden Techniken, gefolgt von einer kurzen Anleitung, wie Sie mit unserem Tool Sprechertags hinzufügen können.
Das Hinzufügen von Sprechertags ist nicht einfach, da es viele Schritte umfasst. Lassen Sie uns kurz den üblichen Ablauf durchgehen.
Zuerst müssen Sie das Audiomaterial in Sprachsegmente aufteilen. Das bedeutet, dass Sie die Teile ohne Sprache entfernen und die Audiosegmente an den Sprecherwechseln aufteilen, so dass Sie am Ende Segmente mit nur eine:m:r Sprecher:in haben.
Nach der Aufteilung müssen Sie einen Weg finden, die Segmente, die zu demselben oder derselben Sprecher:in gehören, unter demselben Sprechertag zusammenzufassen. Diese Aufgabe ist wiederum in mehrere Schritte unterteilt.
Man muss einen Sprechervektor für die Segmente extrahieren und dann die Sprechervektoren clustern, um schließlich die Vektoren im selben Cluster unter demselben Sprechertag neu zu gruppieren. Die Schwierigkeit dieser Aufgabe ist der Ursprung des DIHARD genannten Diarisierungswettbewerbs.
Nun geht es an die Extraktion der besagten Sprechervektoren.
Normalerweise ist die Erstellung der Aktivitätssegmente nicht der komplizierteste Teil. Dies wird als Speech Activity Detection (SAD) oder Voice Activity Detection (VAD) bezeichnet. In der Regel wird dazu ein Schwellenwert für die Aktivität zu einem bestimmten Zeitpunkt im Audiomaterial verwendet.
Die vollständige Liste wäre noch viel länger, aber wir werden uns auf die gängigsten Techniken beschränken.
I-Vektor basiert auf Verborgene Markov-Ketten und Gauß’sche Mischungsmodelle: zwei statistische Modelle zur Schätzung von Sprecherwechseln und zur Bestimmung von Sprechervektoren auf der Grundlage einer Reihe bekannter Sprecher:innen. Es handelt sich um ein altes Verfahren, das immer noch verwendet werden kann.
X-Vektoren und d-Vektoren basieren auf neuronalen Netzwerken, die für die Erkennung einer Reihe von Sprechern und Sprecherinnen trainiert wurden. Diese Systeme sind leistungsfähiger, erfordern jedoch mehr Trainingsdaten und einen höheren Einrichtungsaufwand. Ihre Merkmale werden als Sprechervektoren verwendet.
ClusterGAN geht noch einen Schritt weiter und versucht, einen bestehenden Sprechervektor in einen anderen umzuwandeln, der bessere Informationen enthält, indem drei neuronale Netzwerke gegeneinander antreten.
Wenn dieser Schritt abgeschlossen ist, haben wir Sprechervektoren für jedes Segment.
Nachdem Sie diese Sprechervektoren erhalten haben, müssen Sie diese clustern. Dabei werden Sprechervektoren gruppiert, die sich ähneln und daher wahrscheinlich zu demselben oder derselben Sprecher:in gehören.
Das Problem bei diesem Schritt ist, dass Sie nicht unbedingt die Anzahl der Sprecher:innen für eine bestimmte Datei (oder einen Satz von Dateien) kennen, so dass Sie nicht sicher sind, wie viele Cluster Sie erhalten möchten. Ein Algorithmus kann versuchen, dies zu erraten, liegt dabei aber möglicherweise falsch.
Auch hier gibt es mehrere Algorithmen, die zur Erfüllung dieser Aufgabe verwendet werden können; die gebräuchlichsten sind in der nachstehenden Tabelle aufgeführt:
PLDA bezieht sich auf ein Scoring-Verfahren, das in einem anderen Algorithmus verwendet wird. K-means ist normalerweise die Standardmethode für das Clustering, aber Sie müssen einen Abstand zwischen zwei Sprechervektoren definieren, und PLDA ist für diesen Fall besser geeignet.
UIS-RNN ist eine neuere, sehr vielversprechende Technik. Sie ermöglicht eine Online-Dekodierung, bei der neue Sprecher:innen hinzugefügt werden, sobald sie erscheinen.
Nach dem Schritt der Clusterbildung können Sie die Sprechertags zu den Segmenten hinzufügen, die zum selben Cluster gehören, so dass Sie am Ende Tags für jedes Segment haben.
Wenn die Diarisierung abgeschlossen ist, müssen Sie die Datei noch transkribieren (das heißt den Text aus der Audiodatei herausholen), aber die Technologie, die dahinter steckt, verdient einen anderen Beitrag!
Die Ausgabe der Transkription ist dann eine vollständige Transkription mit den Wörtern der Audiodatei und den Sprechern und Sprecherinnen, die jedem Teil des Textes zugeordnet sind.
Nun zum wichtigsten Teil: Wie können Sie die besagten Sprechertags hinzufügen, ohne all die oben genannten technischen Schritte durchführen zu müssen?
Gehen Sie einfach auf unsere Website und melden Sie sich an. Danach können Sie eine Datei hochladen und die Anzahl der Sprecher:innen auswählen (für eine bessere Genauigkeit) und dann den Algorithmus laufen lassen!
Sie müssen sich nicht darum kümmern, welche Technik Sie wählen. Nach ein paar Minuten ist Ihre Datei vollständig transkribiert, und Sie können im Editor überprüfen, ob die Sprechertags korrekt hinzugefügt wurden.
Sie können sogar Fehler korrigieren, falls Sie welche finden, und Ihr Transkript dann zur Veröffentlichung herunterladen.
Zusammenfassend lässt sich sagen, dass es viele Diarisierungstechniken gibt und dieser Prozess wirklich kompliziert ist. Wir haben ein Tool entwickelt, das die beste verfügbare Technik verwendet, um Ihnen das Hinzufügen von Sprechertags zu Ihren Audiodateien zu ermöglichen, damit Sie die beste Transkription erhalten können.