{"id":19992,"date":"2020-08-05T00:00:00","date_gmt":"2020-08-05T00:00:00","guid":{"rendered":"https:\/\/localhost:10083\/non-categorizzato\/how-to-add-speaker-tags-to-audio-files-for-transcription-it\/"},"modified":"2022-08-22T12:49:44","modified_gmt":"2022-08-22T10:49:44","slug":"come-aggiungere-speaker-tags-file-audio-trascrizione","status":"publish","type":"post","link":"https:\/\/wp-staging.amberscript.com\/it\/blog\/come-aggiungere-speaker-tags-file-audio-trascrizione\/","title":{"rendered":"Come Aggiungere gli Speaker Tags ai File Audio per la Trascrizione"},"content":{"rendered":"\n<p><em>Questo post tratter\u00e0 del processo di diarizzazione, che consiste nell\u2019aggiungere speaker tags a un file audio per le <a href=\"https:\/\/wp-staging.amberscript.com\/it\/blog\/cose-la-trascrizione-audio\/\" target=\"_blank\" rel=\"noreferrer noopener\">trascrizioni.<\/a> Descriveremo dunque rapidamente le tecniche per lavorare con gli speaker vectors utilizzando il nostro strumento.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Che cos\u2019\u00e8 la diarizzazione (aggiunta degli speaker tags)?<\/h2>\n\n\n\n<p>L\u2019aggiunta degli speaker tags a una trascrizione o la risposta alla domanda \u201cchi ha parlato quando?\u201d rappresenta un\u2019attivit\u00e0 chiamata diarizzazione.<\/p>\n\n\n\n<p>Questo compito non \u00e8 cos\u00ec semplice come sembra, perch\u00e9 gli algoritmi non hanno quasi lo stesso livello di comprensione del suono che abbiamo noi esseri umani. Ci\u00f2 implica la ricerca del numero di interlocutori e il momento in cui questi hanno parlato, usando il segnale dell\u2019onda sonora.<\/p>\n\n\n\n<p>Inoltre, \u00e8 un passaggio necessario nei sistemi di riconoscimento vocale automatico, in quanto ci consente di organizzare la trascrizione del testo e di avere ulteriori informazioni sull\u2019audio.<\/p>\n\n\n\n<p>Ad Amberscript abbiamo analizzato diversi approcci e integrato il migliore di questi nel nostro prodotto. In questo post, troverai quali siano le tecniche esistenti, seguite da una&nbsp;breve guida su come aggiungere gli speaker tags usando il nostro strumento.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Perch\u00e8 la diarizzazione \u00e8 cos\u00ec complicata?<\/h2>\n\n\n<div class=\"image-block-wrapper\">\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/cdn.shortpixel.ai\/client\/q_lqip,ret_wait,w_1030,h_190\/https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2020\/08\/speaker-tags-1030x190.png\" alt=\"\" title=\"speaker tags\"\/><\/figure>\n<\/div>\n\n\n<p>L\u2019aggiunta degli speaker tags non \u00e8 facile, poich\u00e9 comporta molti passaggi. Descriviamo rapidamente le fasi del processo.<\/p>\n\n\n\n<p>Innanzitutto, devi dividere l\u2019audio in segmenti di discorso. Ci\u00f2 significa rimuovere le parti in cui nessuno sta parlando e dividere i segmenti dell\u2019audio a seconda degli interlocutori, in modo tale da ottenere un segmento comprendente un solo interlocutore.<\/p>\n\n\n\n<p>Dopo la divisione, \u00e8 necessario trovare un modo per raggruppare i segmenti appartenenti allo stesso altoparlante sotto lo stesso tag di altoparlante. Proprio questo compito \u00e8 diviso in diversi passaggi.<\/p>\n\n\n\n<p>Successivamente \u00e8 necessario estrarre uno speaker vector per ogni segmento, e quindi raggruppare i vettori per raggrupparli infine nello stesso gruppo sotto il nome dello stesso speaker tag. La difficolt\u00e0 sta all\u2019origine della sfida di diarizzazione chiamata&nbsp;<a href=\"https:\/\/arxiv.org\/pdf\/1906.07839.pdf\" target=\"_blank\" rel=\"noopener\">DIHARD<\/a>.&nbsp;<\/p>\n\n\n\n<p>Ora vediamo come estrarre i gi\u00e0 citati speaker vectors.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Generazione automatica di speaker vectors<\/h2>\n\n\n\n<p>Di solito, creare l\u2019attivit\u00e0 di questi segmenti non \u00e8 la parte pi\u00f9 complicata. Si chiama Speech Activity Detection (SAD) o Voice Activity Detection (VAD). Di solito viene fatto utilizzando come riferimento l\u2019attivit\u00e0 in un determinato momento dell\u2019audio.<\/p>\n\n\n\n<p>Quello che \u00e8 pi\u00f9 complicato \u00e8 il compito di estrarre gli speaker vectors dai segmenti ottenuti. Per questo, puoi dare un\u2019occhiata a diverse tecniche per estrarre gli speaker vectors (chiamato speaker embedding) nella tabella seguente:<\/p>\n\n\n<div class=\"single-block\">\n    <div class=\"single-images\">\n        <div class=\"grid-x\">\n            <div class=\"cell large-11\">\n                            \n                <table border=\"0\"><thead><tr><th>NOME<\/th><th>STRUMENTI INTERNI<\/th><\/tr><\/thead><tbody><tr><td>i-vectors<\/td><td>Modelli statistici<\/td><\/tr><tr><td>x-vectors\t<\/td><td>Reti neurali ritardate<\/td><\/tr><tr><td>d-vectors\t<\/td><td>Reti neurali ricorrenti<\/td><\/tr><tr><td>ClusterGAN\t<\/td><td>Reti contraddittorie generative<\/td><\/tr><\/tbody><\/table>            <\/div>\n        <\/div>\n    <\/div>\n<\/div>\n\n\n\n\n\n<p>L\u2019elenco completo sarebbe molto pi\u00f9 lungo, ma puoi fare riferimento a queste tecniche che sono le pi\u00f9 comuni.<\/p>\n\n\n\n<p><em>I-vector<\/em>&nbsp;si basa sulle catene nascoste di Markov sui modelli a miscele gaussiane: due modelli statistici per stimare gli speaker tags e determinare gli speaker vectors sulla base di una serie di speaker noti. \u00c8 una tecnica tradizionale che \u00e8 ancora in uso.<\/p>\n\n\n\n<p>I sistemi&nbsp;<em>x-vector<\/em>&nbsp;e&nbsp;<em>d-vectors<\/em>&nbsp;si basano su reti neurali addestrate a riconoscere un set di speakers. Questi sistemi sono migliori in termini di prestazioni, ma richiedono pi\u00f9 dati di allenamento e configurazione. Le loro caratteristiche sono usate come speaker tags.<\/p>\n\n\n\n<p><em>ClusterGAN<\/em>&nbsp;fa un ulteriore passo avanti e cerca di trasformare uno speaker tag esistente in un altro che contenga informazioni migliori utilizzando 3 reti neurali in competizione tra loro.<\/p>\n\n\n\n<p>Una volta completato questo step, terminiamo con gli speaker vectors per ogni segmento.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Raggruppamento degli speaker vectors<\/h2>\n\n\n\n<p>Dopo aver individuato gli speaker vectors, bisogna raggrupparli. Questo significa raggruppare quei speaker vectors che sono simili, e dunque che appartengono molto probabilmente allo stesso speaker.<\/p>\n\n\n\n<p>Il problema qui \u00e8 che potresti non sapere quanti sono gli interlocutori in un determinato file (o set di file), quindi potresti non essere sicuro quanti gruppi si possano ottenere. Un algoritmo pu\u00f2 tentarci al posto tuo, ma potrebbe sbagliarsi.<\/p>\n\n\n\n<p>Esistono diversi tipi di algoritmi che potrebbero essere utilizzati a tal fine, i pi\u00f9 comuni sono elencati qui sotto:<\/p>\n\n\n<div class=\"single-block\">\n    <div class=\"single-images\">\n        <div class=\"grid-x\">\n            <div class=\"cell large-11\">\n                            \n                <table border=\"0\"><thead><tr><th>NOME<\/th><th>STRUMENTI INTERNI\n<\/th><\/tr><\/thead><tbody><tr><td>K-means<\/td><td>Raggruppamento iterativo<\/td><\/tr><tr><td>PLDA<\/td><td>Modelli Statistici<\/td><\/tr><tr><td>UIS-RNN<\/td><td>Rete neurale ricorrente<\/td><\/tr><\/tbody><\/table>            <\/div>\n        <\/div>\n    <\/div>\n<\/div>\n\n\n\n\n\n<p><a href=\"https:\/\/www.odyssey2016.org\/papers\/pdfs_stamped\/12.pdf\" target=\"_blank\" rel=\"noopener\">PLDA si riferisce a una tecnica di punteggio utilizzata in un altro algoritmo.<\/a>&nbsp;K-means \u00e8 di solito il modo standard di procedere per il raggruppamento, ma \u00e8 necessario definire una distanza tra i due speaker vectors e PLDA \u00e8 in realt\u00e0 pi\u00f9 adatto a questo caso.<\/p>\n\n\n\n<p><a href=\"https:\/\/ai.googleblog.com\/2018\/11\/accurate-online-speaker-diarization.html\" target=\"_blank\" rel=\"noopener\">UIS-RNN \u00e8 una tecnica recente che consente la decodifica online,<\/a>&nbsp;aggiungendo nuovi speakers come appaiono ed \u00e8 molto promettente.<\/p>\n\n\n\n<p>Dopo la fase di raggruppamento, puoi inserire gli speaker tags ai segmenti che appartengono allo stesso gruppo, in modo tale da ottenere un tag per ogni segmento.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Cosa c\u2019\u00e8 da fare dopo la diarizzazione per ottenere una trascrizione completa?<\/h2>\n\n\n\n<p>Una volta finito, avremo speaker vector per ogni segmento.<\/p>\n\n\n\n<p>Il risultato della trascrizione sar\u00e0 un testo completo di tutte le parole pronunciate nel file audio, compresi gli interlocutori associati a ogni parte del testo.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Come aggiungere gli speaker tags utilizzando Amberscript<\/h2>\n\n\n\n<p>Veniamo alle cose pratiche: come si fa ad aggiungere questi speaker tags senza dover mettere in pratica tutti quei passaggi tecnici menzionati sopra?<\/p>\n\n\n\n<p>Puoi semplicemente andare<a href=\"https:\/\/wp-staging.amberscript.com\/it\/\">\u00a0sul nostro sito<\/a>\u00a0ed accedere al tuo account. Una volta fatto, potrai caricare il file e selezionare il numero di interlocutori (in modo da ottenere un livello di accuratezza pi\u00f9 alto) e lasciar fare all\u2019algoritmo il resto!<\/p>\n\n\n\n<p>Non hai bisogno di preoccuparti su quale tecnica utilizzare. Dopo pochi minuti, il tuo file sar\u00e0 trascritto completamente, e potrai controllare con l\u2019editor se gli speaker tags sono stati inseriti correttamente.<\/p>\n\n\n\n<p>Nel caso in cui ci fossero errori, puoi correggerli, e poi scaricare la tua trascrizione in vari formati.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusioni<\/h2>\n\n\n\n<p>Per concludere, sappiamo che ci siano molte tecniche di diarizzazione disponibili e questo processo \u00e8 davvero complicato, ma abbiamo creato uno strumento che utilizza la migliore tecnica disponibile per consentirti di aggiungere speaker tags ai tuoi file audio in modo da ottenere la migliore trascrizione possibile.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><b>Come aggiungere gli speaker tags ai file audio<\/b><\/p>\n<p>Questo post tratter\u00e0 del processo di diarizzazione, che \u00e8 consiste nell&#8217;aggiungere speaker tags a un file audio per le trascrizioni.<\/p>\n","protected":false},"author":70,"featured_media":19993,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[145],"tags":[154],"class_list":["post-19992","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","tag-trascrizioni-automatiche"],"acf":{"text":"","link":null,"questions":null},"_links":{"self":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts\/19992","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/users\/70"}],"replies":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/comments?post=19992"}],"version-history":[{"count":0,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts\/19992\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/media\/19993"}],"wp:attachment":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/media?parent=19992"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/categories?post=19992"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/tags?post=19992"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}