{"id":76755,"date":"2021-06-08T10:06:48","date_gmt":"2021-06-08T10:06:48","guid":{"rendered":"https:\/\/wp-staging.amberscript.com\/blog\/dutch-punctuation-model\/"},"modified":"2023-03-07T14:44:50","modified_gmt":"2023-03-07T13:44:50","slug":"modello-di-punteggiatura-olandese","status":"publish","type":"post","link":"https:\/\/wp-staging.amberscript.com\/it\/blog\/modello-di-punteggiatura-olandese\/","title":{"rendered":"Modello di punteggiatura olandese"},"content":{"rendered":"\n<p>Gli aspetti grammaticali come il gerundio, le preposizioni e le regole grammaticali di base giocano un ruolo importante nella maggior parte delle lingue conosciute. Hai mai pensato al fatto che anche la punteggiatura svolge un ruolo fondamentale?<\/p>\n\n\n\n<p>La punteggiatura \u00e8 importante nel linguaggio. Essa implica la corretta disposizione di piccoli segni, a volte poco evidenti, nei luoghi appropriati per indicare l&#8217;esatta lunghezza e il significato della frase.<\/p>\n\n\n\n<p>Nel testo che segue, daremo un&#8217;occhiata pi\u00f9 da vicino al modello di punteggiatura AI che abbiamo sviluppato per il nostro modello di riconoscimento vocale della lingua olandese.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Il ruolo della punteggiatura nel linguaggio<\/strong><\/h2>\n\n\n\n<p>La punteggiatura \u00e8 parte integrante del testo scritto e contribuisce a renderlo comprensibile e coerente. L&#8217;assenza di punteggiatura ostacola la leggibilit\u00e0 e pu\u00f2 rendere i testi incomprensibili. Inoltre, i segni di punteggiatura riducono l&#8217;ambiguit\u00e0. Considera questo esempio in cui una virgola pu\u00f2 alterare completamente il significato di una frase:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u201cMost of the time travellers worry about their luggage\u201d<\/em><\/p>\n<\/blockquote>\n\n\n\n<p class=\"has-text-align-center\">vs<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u201cMost of the time, travellers worry about their luggage\u201d<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>La mancanza di punteggiatura pu\u00f2 anche portare a frasi imbarazzanti, come in questo classico esempio:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u201cI find inspiration in cooking my family and my dog\u201d<\/em><\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Punteggiatura nel parlato-testo<\/strong><\/h2>\n\n\n\n<p>I sistemi speech-to-text devono quindi includere la punteggiatura quando producono una trascrizione. I tipici sistemi di riconoscimento automatico vocale (ASR), tuttavia, non producono segni di punteggiatura perch\u00e9 non hanno una forma parlata. Inoltre, la trascrizione generata \u00e8 composta solo da parole minuscole, il che la rende difficile da capire. Una trascrizione correttamente punteggiata aiuta anche la generazione automatica di sottotitoli per i video.<\/p>\n\n\n\n<p>Questo problema pu\u00f2 essere risolto incorporando un modello di punteggiatura separato in grado di aggiungere automaticamente la punteggiatura all&#8217;output di un modello ASR. Pu\u00f2 essere considerato un problema di elaborazione del linguaggio naturale (NLP) in cui l&#8217;obiettivo \u00e8 prevedere il segno di punteggiatura (o la sua mancanza) per ogni parola in una trascrizione.<\/p>\n\n\n<div class=\"block text-image\">\n\t<div class=\"grid-container\">\n      <div class=\"grid-x align-middle grid-margin-y grid-margin-x\">\n\t\t  \n\n        <div class=\"cell medium-6 large-5 medium-order-2 medium-offset-0 large-offset-1\t\">\t\t  \n\n                            <div class=\"image-holder text-center\">\n\n                                    <img decoding=\"async\" width=\"640\" height=\"361\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images-640x361.png\" class=\"img-responsive\" alt=\"How to Transcribe Fast: 10 Tips\" srcset=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images-640x361.png 640w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images-1278x720.png 1278w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images-768x433.png 768w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images-1536x865.png 1536w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/02\/feature-images.png 1640w\" sizes=\"(max-width: 640px) 100vw, 640px\" \/>                                    <\/div>\n            \t\t\t\n        <\/div>\n\t\t  \n\n        <div class=\"cell medium-6 large-5  \">  \n\n               \n                                                  \n                                                           <h3>Leggi come funziona il riconoscimento vocale automatico<\/h3>\n                                    \n               \n                                <a class=\"button theme-color-secondary\" id=\"button_block_2605f7b8ee9eb9c167663d5689932b8e\" href=\"https:\/\/wp-staging.amberscript.com\/it\/blog\/come-funziona-tecnologia-riconoscimento-vocale\/\" target=\"_self\">Leggi l&#039;articolo<\/a>\n                            \n        <\/div>\n      <\/div>\n   <\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Modelli linguistici<\/strong><\/h2>\n\n\n\n<p>L&#8217;apprendimento profondo ha registrato enormi progressi negli ultimi anni, alimentati dall&#8217;aumento della potenza di calcolo. Il campo dell&#8217;NLP \u00e8 stato preso d&#8217;assalto dall&#8217;introduzione di <a href=\"https:\/\/arxiv.org\/abs\/1810.04805\" target=\"_blank\" rel=\"noopener\">BERT<\/a> nel 2018. Sviluppato da Google AI, BERT \u00e8 un modello linguistico di grandi dimensioni basato <a href=\"https:\/\/arxiv.org\/abs\/1706.03762\" target=\"_blank\" rel=\"noopener\">sull&#8217;architettura transformer<\/a>. \u00c8 stato definito il momento <a href=\"https:\/\/www.ruder.io\/nlp-imagenet\/\" target=\"_blank\" rel=\"noopener\">ImageNet dell&#8217;NLP<\/a>, in riferimento al modo in cui ImageNet ha guidato i progressi nell&#8217;apprendimento delle rappresentazioni dalle immagini nel campo della computer vision. BERT rappresenta un netto miglioramento rispetto ai modelli di rappresentazione linguistica precedenti, come <a href=\"https:\/\/nlp.stanford.edu\/pubs\/glove.pdf\" target=\"_blank\" rel=\"noopener\">GloVe<\/a> embeddings, e alle rappresentazioni contestuali come <a href=\"https:\/\/arxiv.org\/abs\/1802.05365\" target=\"_blank\" rel=\"noopener\">ELMo<\/a>.<\/p>\n\n\n\n<p>Per una spiegazione intuitiva del funzionamento di BERT, <a href=\"https:\/\/jalammar.github.io\/illustrated-bert\/\" target=\"_blank\" rel=\"noopener\">consulta questo eccellente blog di Jay Alammar<\/a>. In parole povere, viene addestrato su testi grezzi in modo auto-supervisionato, cio\u00e8 senza annotazioni umane. In particolare, viene addestrato su due compiti: la modellazione del linguaggio mascherato e la previsione della frase successiva. Al termine dell&#8217;addestramento, il modello \u00e8 detto &#8220;pre-addestrato&#8221; e cattura la semantica del linguaggio con le sue rappresentazioni di parole e frasi. Un BERT pre-addestrato pu\u00f2 quindi essere messo a punto su un compito NLP a valle. Quando \u00e8 stato pubblicato, il BERT ha prodotto risultati all&#8217;avanguardia dopo la messa a punto su una serie di compiti di NLP, tra cui l&#8217;inferenza del linguaggio naturale (NLI), la risposta alle domande, ecc.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Modello di punteggiatura in Amberscript<\/strong><\/h2>\n\n\n\n<p>In Amberscript sviluppiamo modelli ASR personalizzati, uno dei quali per l&#8217;olandese. Come gi\u00e0 detto, le trascrizioni prodotte dal modello sono prive di segni di punteggiatura. Attualmente non esistono modelli di punteggiatura open-source specifici per la lingua olandese. Pertanto, abbiamo sviluppato un modello di punteggiatura basato su BERT per aggiungere automaticamente i seguenti segni di punteggiatura: punto interrogativo, punto, punto esclamativo, virgola, due punti e punto e virgola. Altri segni di punteggiatura che si presentano in coppia, come le virgolette e le parentesi, sono molto pi\u00f9 difficili da determinare solo sulla base del testo.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>La pipeline<\/strong><\/h2>\n\n\n\n<p>L&#8217;intera pipeline ASR \u00e8 costituita da tre componenti principali: il modello ASR che produce testo in minuscolo, un modulo di post-elaborazione che capitalizza le entit\u00e0 nominate (nomi di persone, luoghi, ecc.), esegue la denormalizzazione dei numeri, le correzioni ortografiche, ecc. e infine un modello di punteggiatura che aggiunge i segni di interpunzione necessari.<\/p>\n\n\n<div class=\"wp-block-image\"><div class=\"image-block-wrapper\">\n<figure class=\"aligncenter size-large\"><img decoding=\"async\" width=\"509\" height=\"720\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-509x720.png\" alt=\"modello di punteggiatura olandese\" class=\"wp-image-76757\" srcset=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-509x720.png 509w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-339x480.png 339w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-768x1086.png 768w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-1086x1536.png 1086w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT-1448x2048.png 1448w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctuation-model-IT.png 1587w\" sizes=\"(max-width: 509px) 100vw, 509px\" \/><\/figure>\n<\/div><\/div>\n\n\n<h2 class=\"wp-block-heading\">Demo<\/h2>\n\n\n\n<p>Per mostrare il modello di punteggiatura in azione, possiamo prendere questo esempio di output del modello ASR:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\">\n<p>nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen <em>je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>Il risultato dell&#8217;applicazione della post-elaborazione e del modello di punteggiatura \u00e8 il seguente:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>Si noti che l&#8217;output del modello ASR \u00e8 difficile da leggere, mentre la trascrizione finale dopo l&#8217;aggiunta dei segni di punteggiatura \u00e8 pi\u00f9 naturale.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Punteggiatura inclusa nelle trascrizioni di Amberscript<\/strong><\/h2>\n\n\n\n<p>Se sei alla ricerca di una trascrizione pulita e accurata, che includa la giusta punteggiatura, dovresti provare a utilizzare un <a href=\"https:\/\/wp-staging.amberscript.com\/it\/trascrizioni\/trascrizione-automatica\/\">servizio di trascrizione automatico di Amberscript<\/a>.<\/p>\n\n\n\n<p>Offriamo opzioni di trascrizione veloci, accurate e convenienti che sicuramente miglioreranno i tuoi flussi di lavoro. Inoltre, se hai bisogno della trascrizione pi\u00f9 accurata, dovresti provare <a href=\"https:\/\/wp-staging.amberscript.com\/it\/trascrizioni\/trascrizione-manuale\/\">la trascrizione professionale di Amberscript<\/a>. I nostri esperti linguistici sono madrelingua e creano testi di altissima precisione in formato lettura (testo reso pi\u00f9 leggibile) o formato letterale (tutte le parole vengono scritte esattamente come sono state pronunciate).<\/p>\n\n\n\n\n\n\t<div class=\"related-content\">\n\t\t\n\t<div class=\"grid-x align-center grid-margin-x grid-margin-y\">\n\n<style>\n\t.test123 {\n\t\tdisplay: none;\n\t}\n<\/style>\n<div class=\"test123\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\tSoftware &#8211; Transcription\t\t\t\t\t\t\t<\/div>\n\n\t\t\n\t\t\t\n\t\t\t\n\n\t\t\t\n\n\n\t\t\t\n\n\n\n\t\t\t\n\n\n\n\n\t\t<\/div>\n\n\t<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Gli aspetti grammaticali come il gerundio, le preposizioni e le regole grammaticali di base giocano un ruolo importante nella maggior parte delle lingue conosciute. Hai mai pensato al fatto che anche la punteggiatura svolge un ruolo fondamentale? La punteggiatura \u00e8 importante nel linguaggio. Essa implica la corretta disposizione di piccoli segni, a volte poco evidenti, [&hellip;]<\/p>\n","protected":false},"author":70,"featured_media":35790,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[145],"tags":[154],"class_list":["post-76755","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","tag-trascrizioni-automatiche"],"acf":{"text":"","link":"","questions":""},"_links":{"self":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts\/76755","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/users\/70"}],"replies":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/comments?post=76755"}],"version-history":[{"count":0,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/posts\/76755\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/media\/35790"}],"wp:attachment":[{"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/media?parent=76755"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/categories?post=76755"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/it\/wp-json\/wp\/v2\/tags?post=76755"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}