{"id":89055,"date":"2020-06-16T00:00:00","date_gmt":"2020-06-16T00:00:00","guid":{"rendered":"https:\/\/wp-staging.amberscript.com\/blog\/how-to-add-speaker-tags-to-audio-files-for-transcription\/"},"modified":"2023-07-03T17:48:04","modified_gmt":"2023-07-03T15:48:04","slug":"sprechertags-zu-audiodateien-fuer-die-transkription-hinzufuegen","status":"publish","type":"post","link":"https:\/\/wp-staging.amberscript.com\/de\/blog\/sprechertags-zu-audiodateien-fuer-die-transkription-hinzufuegen\/","title":{"rendered":"Sprechertags zu Audiodateien f\u00fcr die Transkription hinzuf\u00fcgen"},"content":{"rendered":"\n<p><em>In diesem Blogbeitrag wird der Prozess der Diarisierung beschrieben, das hei\u00dft das Hinzuf\u00fcgen von Sprechertags zu einer Audiodatei f\u00fcr die Transkription. Es werden Techniken zur Arbeit mit Sprechervektoren und eine einfache Methode zur Durchf\u00fchrung mit unserem Tool beschrieben.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Was ist Diarisierung (Hinzuf\u00fcgen von Sprechertags)?<\/strong><\/h2>\n\n\n\n<p>Das Hinzuf\u00fcgen von Sprechertags zur Transkription oder die Beantwortung der Frage &#8222;Wer hat wann gesprochen?&#8220; wird Diarisierung bezeichnet.<\/p>\n\n\n\n<p>Diese Aufgabe ist nicht so einfach, wie es scheint. Algorithmen haben nicht ann\u00e4hernd das gleiche Verst\u00e4ndnis von Klang, wie wir es haben. Es geht darum, die Anzahl der Sprecher:innen und den Zeitpunkt, zu dem sie gesprochen haben, anhand des Schallwellensignals zu ermitteln.<\/p>\n\n\n\n<p>Au\u00dferdem ist es ein notwendiger Schritt in automatischen Spracherkennungssystemen, da es uns erm\u00f6glicht, die Texttranskription zu organisieren und zus\u00e4tzliche Informationen \u00fcber den Ton zu erhalten.<\/p>\n\n\n\n<p>Bei <a href=\"https:\/\/wp-staging.amberscript.com\/de\/\">Amberscript<\/a> haben wir verschiedene Ans\u00e4tze analysiert und den besten davon in unser Produkt integriert. In diesem Beitrag finden Sie einige Elemente der bestehenden Techniken, gefolgt von einer kurzen Anleitung, wie Sie mit unserem Tool Sprechertags hinzuf\u00fcgen k\u00f6nnen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Warum ist die Diarisierung eine komplizierte Aufgabe?<\/strong><\/h2>\n\n\n<div class=\"image-block-wrapper\">\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1280\" height=\"246\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19-1280x246.png\" alt=\"\" class=\"wp-image-89096\" srcset=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19-1280x246.png 1280w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19-640x123.png 640w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19-768x148.png 768w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19-1536x295.png 1536w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/07\/7874F79D-77DC-48B1-B167-CF89CC10CF19.png 1914w\" sizes=\"(max-width: 1280px) 100vw, 1280px\" \/><\/figure>\n<\/div>\n\n\n<p>Das Hinzuf\u00fcgen von Sprechertags ist nicht einfach, da es viele Schritte umfasst. Lassen Sie uns kurz den \u00fcblichen Ablauf durchgehen.<\/p>\n\n\n\n<p>Zuerst m\u00fcssen Sie das Audiomaterial in Sprachsegmente aufteilen. Das bedeutet, dass Sie die Teile ohne Sprache entfernen und die Audiosegmente an den Sprecherwechseln aufteilen, so dass Sie am Ende Segmente mit nur eine:m:r Sprecher:in haben.<\/p>\n\n\n\n<p>Nach der Aufteilung m\u00fcssen Sie einen Weg finden, die Segmente, die zu demselben oder derselben Sprecher:in geh\u00f6ren, unter demselben Sprechertag zusammenzufassen. Diese Aufgabe ist wiederum in mehrere Schritte unterteilt.<\/p>\n\n\n\n<p>Man muss einen Sprechervektor f\u00fcr die Segmente extrahieren und dann die Sprechervektoren clustern, um schlie\u00dflich die Vektoren im selben Cluster unter demselben Sprechertag neu zu gruppieren. Die Schwierigkeit dieser Aufgabe ist der Ursprung des <a href=\"https:\/\/arxiv.org\/pdf\/1906.07839.pdf\" target=\"_blank\" rel=\"noopener\">DIHARD<\/a> genannten Diarisierungswettbewerbs.<\/p>\n\n\n\n<p>Nun geht es an die Extraktion der besagten Sprechervektoren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Automatische Generierung von Sprechervektoren<\/strong><\/h2>\n\n\n\n<p>Normalerweise ist die Erstellung der Aktivit\u00e4tssegmente nicht der komplizierteste Teil. Dies wird als Speech Activity Detection (SAD) oder Voice Activity Detection (VAD) bezeichnet. In der Regel wird dazu ein Schwellenwert f\u00fcr die Aktivit\u00e4t zu einem bestimmten Zeitpunkt im Audiomaterial verwendet.<\/p>\n\n\n\n<p>Die vollst\u00e4ndige Liste w\u00e4re noch viel l\u00e4nger, aber wir werden uns auf die g\u00e4ngigsten Techniken beschr\u00e4nken.<\/p>\n\n\n<div class=\"single-block\">\n    <div class=\"single-images\">\n        <div class=\"grid-x\">\n            <div class=\"cell large-11\">\n                            \n                <table border=\"0\"><thead><tr><th>Name<\/th><th><\/th><th><\/th><th><\/th><th><\/th><th>Internes Tool<\/th><\/tr><\/thead><tbody><tr><td>i-Vektoren<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>Statistische Modelle<\/td><\/tr><tr><td>x-Vektoren<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>         Zeitverz\u00f6gerte neuronale Netze<\/td><\/tr><tr><td>d-Vektoren<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>        Rekurrierende neuronale Netze<\/td><\/tr><tr><td>ClusterGAN<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>        Generative kontradiktorische Netzwerke<\/td><\/tr><\/tbody><\/table>            <\/div>\n        <\/div>\n    <\/div>\n<\/div>\n\n\n\n\n\n<p><em>I-Vektor <\/em>basiert auf Verborgene Markov-Ketten und Gau\u00df&#8217;sche Mischungsmodelle: zwei statistische Modelle zur Sch\u00e4tzung von Sprecherwechseln und zur Bestimmung von Sprechervektoren auf der Grundlage einer Reihe bekannter Sprecher:innen. Es handelt sich um ein altes Verfahren, das immer noch verwendet werden kann.<\/p>\n\n\n\n<p><em>X-Vektoren <\/em>und<em> d-Vektoren <\/em>basieren auf neuronalen Netzwerken, die f\u00fcr die Erkennung einer Reihe von Sprechern und Sprecherinnen trainiert wurden. Diese Systeme sind leistungsf\u00e4higer, erfordern jedoch mehr Trainingsdaten und einen h\u00f6heren Einrichtungsaufwand. Ihre Merkmale werden als Sprechervektoren verwendet.<\/p>\n\n\n\n<p><em>ClusterGAN <\/em>geht noch einen Schritt weiter und versucht, einen bestehenden Sprechervektor in einen anderen umzuwandeln, der bessere Informationen enth\u00e4lt, indem drei neuronale Netzwerke gegeneinander antreten.<\/p>\n\n\n\n<p>Wenn dieser Schritt abgeschlossen ist, haben wir Sprechervektoren f\u00fcr jedes Segment.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Clustering der Sprechervektoren<\/strong><\/h2>\n\n\n\n<p>Nachdem Sie diese Sprechervektoren erhalten haben, m\u00fcssen Sie diese clustern. Dabei werden Sprechervektoren gruppiert, die sich \u00e4hneln und daher wahrscheinlich zu demselben oder derselben Sprecher:in geh\u00f6ren.<\/p>\n\n\n\n<p>Das Problem bei diesem Schritt ist, dass Sie nicht unbedingt die Anzahl der Sprecher:innen f\u00fcr eine bestimmte Datei (oder einen Satz von Dateien) kennen, so dass Sie nicht sicher sind, wie viele Cluster Sie erhalten m\u00f6chten. Ein Algorithmus kann versuchen, dies zu erraten, liegt dabei aber m\u00f6glicherweise falsch.<\/p>\n\n\n\n<p>Auch hier gibt es mehrere Algorithmen, die zur Erf\u00fcllung dieser Aufgabe verwendet werden k\u00f6nnen; die gebr\u00e4uchlichsten sind in der nachstehenden Tabelle aufgef\u00fchrt:<\/p>\n\n\n<div class=\"single-block\">\n    <div class=\"single-images\">\n        <div class=\"grid-x\">\n            <div class=\"cell large-11\">\n                            \n                <table border=\"0\"><thead><tr><th>Name<\/th><th><\/th><th><\/th><th><\/th><th><\/th><th>Internes Tool<\/th><\/tr><\/thead><tbody><tr><td>K-means<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>Iterative Clusterbildung<\/td><\/tr><tr><td>PLDA<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>Statistische Modelle<\/td><\/tr><tr><td>UIS-RNN<\/td><td><\/td><td><\/td><td><\/td><td><\/td><td>Rekurrentes neuronales Netzwerk<\/td><\/tr><\/tbody><\/table>            <\/div>\n        <\/div>\n    <\/div>\n<\/div>\n\n\n\n\n\n<p><a href=\"https:\/\/ai.googleblog.com\/2018\/11\/accurate-online-speaker-diarization.html\" target=\"_blank\" rel=\"noopener\">PLDA bezieht sich auf ein Scoring-Verfahren<\/a>, das in einem anderen Algorithmus verwendet wird. K-means ist normalerweise die Standardmethode f\u00fcr das Clustering, aber Sie m\u00fcssen einen Abstand zwischen zwei Sprechervektoren definieren, und PLDA ist f\u00fcr diesen Fall besser geeignet.<\/p>\n\n\n\n<p><a href=\"https:\/\/www.odyssey2016.org\/papers\/pdfs_stamped\/12.pdf\" target=\"_blank\" rel=\"noopener\">UIS-RNN ist eine neuere, sehr vielversprechende Technik<\/a>. Sie erm\u00f6glicht eine Online-Dekodierung, bei der neue Sprecher:innen hinzugef\u00fcgt werden, sobald sie erscheinen.<\/p>\n\n\n\n<p>Nach dem Schritt der Clusterbildung k\u00f6nnen Sie die Sprechertags zu den Segmenten hinzuf\u00fcgen, die zum selben Cluster geh\u00f6ren, so dass Sie am Ende Tags f\u00fcr jedes Segment haben.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Was ist nach der Diarisierung noch zu tun f\u00fcr eine vollst\u00e4ndige Transkription?<\/strong><\/h2>\n\n\n\n<p>Wenn die Diarisierung abgeschlossen ist, m\u00fcssen Sie die Datei noch transkribieren (das hei\u00dft den Text aus der Audiodatei herausholen), aber die Technologie, die dahinter steckt, verdient einen anderen Beitrag!<\/p>\n\n\n\n<p>Die Ausgabe der Transkription ist dann eine vollst\u00e4ndige Transkription mit den W\u00f6rtern der Audiodatei und den Sprechern und Sprecherinnen, die jedem Teil des Textes zugeordnet sind.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Hinzuf\u00fcgen von Sprechertags mit dem Amberscript-Tool<\/strong><\/h2>\n\n\n\n<p>Nun zum wichtigsten Teil: Wie k\u00f6nnen Sie die besagten Sprechertags hinzuf\u00fcgen, ohne all die oben genannten technischen Schritte durchf\u00fchren zu m\u00fcssen?<\/p>\n\n\n\n<p>Gehen Sie einfach auf unsere Website und <a href=\"https:\/\/wp-staging.amberscript.com\/de\/\">melden Sie sich an<\/a>. Danach k\u00f6nnen Sie eine Datei hochladen und die Anzahl der Sprecher:innen ausw\u00e4hlen (f\u00fcr eine bessere Genauigkeit) und dann den Algorithmus laufen lassen!<\/p>\n\n\n\n<p>Sie m\u00fcssen sich nicht darum k\u00fcmmern, welche Technik Sie w\u00e4hlen. Nach ein paar Minuten ist Ihre Datei vollst\u00e4ndig transkribiert, und Sie k\u00f6nnen im Editor \u00fcberpr\u00fcfen, ob die Sprechertags korrekt hinzugef\u00fcgt wurden.<\/p>\n\n\n\n<p>Sie k\u00f6nnen sogar Fehler korrigieren, falls Sie welche finden, und Ihr Transkript dann zur Ver\u00f6ffentlichung herunterladen.<\/p>\n\n\n\n\n\n\n<p>Zusammenfassend l\u00e4sst sich sagen, dass es viele Diarisierungstechniken gibt und dieser Prozess wirklich kompliziert ist. Wir haben ein Tool entwickelt, das die beste verf\u00fcgbare Technik verwendet, um Ihnen das Hinzuf\u00fcgen von Sprechertags zu Ihren Audiodateien zu erm\u00f6glichen, damit Sie die beste Transkription erhalten k\u00f6nnen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><b>How to add speaker tags to audio files for transcription<\/b><\/p>\n<p>This blog post will go through the process of diarization, which is the task of adding speaker tags to an audio file for a transcription.<\/p>\n","protected":false},"author":70,"featured_media":13908,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[144],"tags":[153],"class_list":["post-89055","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","tag-automatische-transkription"],"acf":{"text":"","link":"","questions":""},"_links":{"self":[{"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/posts\/89055","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/users\/70"}],"replies":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/comments?post=89055"}],"version-history":[{"count":0,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/posts\/89055\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/media\/13908"}],"wp:attachment":[{"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/media?parent=89055"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/categories?post=89055"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/de\/wp-json\/wp\/v2\/tags?post=89055"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}