{"id":86320,"date":"2021-06-08T10:06:48","date_gmt":"2021-06-08T10:06:48","guid":{"rendered":"https:\/\/wp-staging.amberscript.com\/blog\/dutch-punctuation-model\/"},"modified":"2023-06-09T10:37:06","modified_gmt":"2023-06-09T08:37:06","slug":"puntuacion-neerlandesa","status":"publish","type":"post","link":"https:\/\/wp-staging.amberscript.com\/es\/blog\/puntuacion-neerlandesa\/","title":{"rendered":"Modelo de puntuaci\u00f3n neerland\u00e9s"},"content":{"rendered":"\n<p><em>Aspectos gramaticales como el gerundio, las preposiciones y las reglas gramaticales b\u00e1sicas desempe\u00f1an un papel importante en la mayor\u00eda de las lenguas conocidas. \u00bfHa pensado alguna vez que la puntuaci\u00f3n tambi\u00e9n desempe\u00f1a un papel fundamental?<br>La puntuaci\u00f3n es importante en el lenguaje. Implica la disposici\u00f3n correcta de peque\u00f1os signos, a veces apenas perceptibles, en los lugares adecuados para indicar la longitud exacta y el significado de la frase.<br>En el siguiente texto analizaremos m\u00e1s de cerca el modelo de puntuaci\u00f3n que hemos desarrollado para nuestro modelo de reconocimiento de voz en neerland\u00e9s.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">El papel de la puntuaci\u00f3n en el lenguaje<\/h2>\n\n\n\n<p>La puntuaci\u00f3n es parte integral del texto escrito y contribuye a hacerlo inteligible y coherente. La ausencia de signos de puntuaci\u00f3n dificulta la legibilidad y puede hacer incomprensibles los textos. Adem\u00e1s, los signos de puntuaci\u00f3n reducen la ambig\u00fcedad. Consideremos este ejemplo en el que una coma puede alterar por completo el significado de una frase:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u00abLa mayor\u00eda de las veces los viajeros se preocupan por su equipaje\u00bb<\/em><\/p>\n<\/blockquote>\n\n\n\n<p class=\"has-text-align-center\">vs<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u00abLa mayor\u00eda de las veces, los viajeros se preocupan por su equipaje\u00bb<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>La falta de puntuaci\u00f3n tambi\u00e9n puede dar lugar a frases inc\u00f3modas, como en este ejemplo cl\u00e1sico:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u00abEncuentro inspiraci\u00f3n en cocinar mi familia y mi perro\u00bb<\/em><\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\">Puntuaci\u00f3n en la conversi\u00f3n de voz a texto<\/h2>\n\n\n\n<p>Por eso, los sistemas de voz a texto deben incluir signos de puntuaci\u00f3n cuando producen una transcripci\u00f3n. Sin embargo, los sistemas t\u00edpicos de reconocimiento autom\u00e1tico del habla (ASR) no emiten signos de puntuaci\u00f3n, ya que no tienen forma hablada. Adem\u00e1s, la transcripci\u00f3n generada se compone s\u00f3lo de palabras en min\u00fasculas, lo que dificulta su comprensi\u00f3n. Una transcripci\u00f3n correctamente puntuada tambi\u00e9n ayuda a la generaci\u00f3n autom\u00e1tica de subt\u00edtulos para v\u00eddeos.<\/p>\n\n\n\n<p>Este problema puede resolverse incorporando un modelo de puntuaci\u00f3n independiente que pueda a\u00f1adir puntuaci\u00f3n autom\u00e1ticamente a la salida de un modelo ASR. Puede plantearse como un problema de procesamiento del lenguaje natural (PLN) en el que el objetivo es predecir el signo de puntuaci\u00f3n (o su ausencia) de cada palabra de una transcripci\u00f3n.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Modelos ling\u00fc\u00edsticos<\/h2>\n\n\n\n<p>El aprendizaje profundo ha experimentado un enorme progreso en los \u00faltimos a\u00f1os, impulsado por el aumento de la potencia de c\u00e1lculo. El campo de la PNL fue tomado por asalto por la introducci\u00f3n de <a href=\"https:\/\/arxiv.org\/abs\/1810.04805\" data-type=\"URL\" data-id=\"https:\/\/arxiv.org\/abs\/1810.04805\" target=\"_blank\" rel=\"noopener\">BERT<\/a> en 2018. Desarrollado por Google AI, BERT es un gran modelo de lenguaje basado en la <a href=\"https:\/\/arxiv.org\/abs\/1706.03762\" data-type=\"URL\" data-id=\"https:\/\/arxiv.org\/abs\/1706.03762\" target=\"_blank\" rel=\"noopener\">arquitectura de transformadores<\/a>. Fue promocionado como el <a href=\"https:\/\/www.ruder.io\/nlp-imagenet\/\" data-type=\"URL\" data-id=\"https:\/\/www.ruder.io\/nlp-imagenet\/\" target=\"_blank\" rel=\"noopener\">momento ImageNet de NLP<\/a>, en referencia a c\u00f3mo ImageNet dirigi\u00f3 el progreso en el aprendizaje de representaci\u00f3n a partir de im\u00e1genes en el campo de la visi\u00f3n por ordenador. BERT supone una notable mejora con respecto a modelos anteriores de representaci\u00f3n del lenguaje como <a href=\"https:\/\/nlp.stanford.edu\/pubs\/glove.pdf\" data-type=\"URL\" data-id=\"https:\/\/nlp.stanford.edu\/pubs\/glove.pdf\" target=\"_blank\" rel=\"noopener\">GloVe<\/a> embeddings y representaciones contextuales como <a href=\"https:\/\/arxiv.org\/abs\/1802.05365\" data-type=\"URL\" data-id=\"https:\/\/arxiv.org\/abs\/1802.05365\" target=\"_blank\" rel=\"noopener\">ELMo<\/a>.<\/p>\n\n\n\n<p>Para una explicaci\u00f3n intuitiva de c\u00f3mo funciona BERT, consulte<a href=\"https:\/\/jalammar.github.io\/illustrated-bert\/\" data-type=\"URL\" data-id=\"https:\/\/jalammar.github.io\/illustrated-bert\/\" target=\"_blank\" rel=\"noopener\"> esta excelente entrada de blog de Jay Alammar.<\/a> En t\u00e9rminos sencillos, se entrena con textos en bruto de forma autosupervisada, es decir, sin anotaciones humanas. En concreto, se entrena en dos tareas: el modelado del lenguaje enmascarado y la predicci\u00f3n de la siguiente frase. Al final del entrenamiento, se dice que el modelo est\u00e1 \u00abpreentrenado\u00bb y captura la sem\u00e1ntica del lenguaje con sus representaciones de palabras y frases. Un BERT preentrenado se puede afinar en una tarea de PLN posterior. En el momento de su publicaci\u00f3n, BERT obtuvo los mejores resultados en una serie de tareas de PLN, como la inferencia del lenguaje natural (NLI), la respuesta a preguntas, etc.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Modelo de puntuaci\u00f3n en Amberscript<\/h2>\n\n\n\n<p>En Amberscript desarrollamos modelos ASR personalizados, uno de ellos para el neerland\u00e9s. Como ya se ha indicado, las transcripciones producidas por el modelo carecen de signos de puntuaci\u00f3n. En la actualidad, no existen modelos de puntuaci\u00f3n de c\u00f3digo abierto espec\u00edficos para el neerland\u00e9s. Por lo tanto, desarrollamos un modelo de puntuaci\u00f3n basado en BERT para a\u00f1adir autom\u00e1ticamente los siguientes signos de puntuaci\u00f3n: signo de interrogaci\u00f3n, punto, signo de exclamaci\u00f3n, coma, dos puntos y punto y coma. Otros signos de puntuaci\u00f3n que aparecen en pares, como las comillas y los par\u00e9ntesis, son mucho m\u00e1s dif\u00edciles de determinar bas\u00e1ndose \u00fanicamente en el texto.<\/p>\n\n\n\t<div class=\"related-content\">\n\t\t\n\t<div class=\"grid-x align-center grid-margin-x grid-margin-y\">\n\n<style>\n\t.test123 {\n\t\tdisplay: none;\n\t}\n<\/style>\n<div class=\"test123\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\tSoftware &#8211; Transcription\t\t\t\t\t\t\t<\/div>\n\n\t\t\n\t\t\t\n\t\t\t\n\n\t\t\t\n\n\n\t\t\t\n\n\n\n\t\t\t\n\n\n\n\n\t\t<\/div>\n\n\t<\/div>\n\n\n<div class=\"single-block\">\n\t<div class=\"grid-x\">\n\t\t<div class=\"cell large-11\">\n\t\t\t<div class=\"single single-banner background purple\">\n\t\t\t\t<div class=\"grid-x align-middle\">\n\t\t\t\t\t<div class=\"cell large-3 text-center\">\n\t\t\t\t\t\t<div class=\"grid-x align-center align-middle\">\n                \t\t\t\t\t\t\t\t\t<div class=\"cell large-12\">\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/01\/cover-image.svg\" alt=\"Icona dell'interfaccia del sito web di Amberscript\"\n\t\t\t\t\t\t\t\t\t\t\t\t style=\"width: 250px; max-height: none\"\/>\n\t\t\t\t\t\t\t\t\t<\/div>\n                \t\t\t\t\t\t\t<div class=\"cell large-12\">\n\n                  \t\t\t\t\t\t\t\t\t\t<a class=\"button theme-background-secondary\" data-offset=\"200\" href=\"https:\/\/wp-staging.amberscript.com\/es\/solicitar-un-presupuesto\/\" target=\"_blank\" data-smooth-scroll>Solicitar un presupuesto<\/a>\n                  \n\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t\t<div class=\"cell large-8 large-offset-1\">\n\t\t\t\t\t\t<h3>Transforma tu audio y<br><br \/>\r\nv\u00eddeo en texto y subt\u00edtulos<\/h3>\n              \t\t\t\t\t\t\t\t<div class=\"theme-color-primary\">\n                    <ul>\n<li>Servicio de alta precisi\u00f3n bajo demanda<\/li>\n<li>Precios competitivos con el plazo de entrega m\u00e1s r\u00e1pido mediante IA<\/li>\n<li>Cargue, busque, edite y exporte con facilidad.<\/li>\n<\/ul>\n\t\t\t\t\t\t\t\t<\/div>\n              \t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t<\/div>\n\t\t<\/div>\n\t<\/div>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\">Proceso<\/h2>\n\n\n\n<p>El proceso ASR consta de tres componentes principales: el modelo ASR, que produce texto en min\u00fasculas; un m\u00f3dulo de posprocesamiento, que escribe en may\u00fasculas las entidades con nombre (nombres de personas, lugares, etc.), desnormaliza los n\u00fameros, corrige la ortograf\u00eda, etc.; y, por \u00faltimo, un modelo de puntuaci\u00f3n, que a\u00f1ade los signos de puntuaci\u00f3n necesarios.<\/p>\n\n\n<div class=\"image-block-wrapper\">\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"509\" height=\"720\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-509x720.png\" alt=\"\" class=\"wp-image-86344\" srcset=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-509x720.png 509w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-339x480.png 339w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-768x1086.png 768w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-1086x1536.png 1086w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1-1448x2048.png 1448w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2023\/06\/Dutch-punctuation-model-1.png 1587w\" sizes=\"(max-width: 509px) 100vw, 509px\" \/><\/figure>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\">Demo<\/h2>\n\n\n\n<p>Para mostrar el modelo de puntuaci\u00f3n en acci\u00f3n, podemos tomar este ejemplo del modelo ASR:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\">\n<p>nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen <em>je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>El resultado de aplicar el post-proceso y el modelo de puntuaci\u00f3n es el siguiente:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.<\/em><\/p>\n<\/blockquote>\n\n\n\n<p>Observe que la primera salida del modelo ASR es dif\u00edcil de leer, mientras que la transcripci\u00f3n final despu\u00e9s de a\u00f1adir los signos de puntuaci\u00f3n es m\u00e1s natural.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Puntuaci\u00f3n incluida en las transcripciones de Amberscript<\/h2>\n\n\n\n<p>Si busca una transcripci\u00f3n limpia y precisa, que incluya la puntuaci\u00f3n adecuada, deber\u00eda probar a utilizar un <a href=\"https:\/\/wp-staging.amberscript.com\/es\/productos\/transcripcion-automatica\/\" data-type=\"URL\" data-id=\"https:\/\/wp-staging.amberscript.com\/es\/productos\/transcripcion-automatica\/\">servicio de transcripci\u00f3n autom\u00e1tica de Amberscript.<\/a><br>Ofrecemos opciones de transcripci\u00f3n r\u00e1pidas, precisas y asequibles que sin duda mejorar\u00e1n sus flujos de trabajo.<br>Adem\u00e1s, si necesita la transcripci\u00f3n m\u00e1s precisa, deber\u00eda probar la <a href=\"https:\/\/wp-staging.amberscript.com\/es\/productos\/transcripcion-manual\/\" data-type=\"URL\" data-id=\"https:\/\/wp-staging.amberscript.com\/es\/productos\/transcripcion-manual\/\">transcripci\u00f3n manual de Amberscript. <\/a>Nuestros expertos ling\u00fc\u00edsticos son hablantes nativos y crean textos de la m\u00e1xima precisi\u00f3n en lectura limpia (texto hecho m\u00e1s legible) o literal (todas las palabras escritas exactamente como se dicen).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Aspectos gramaticales como el gerundio, las preposiciones y las reglas gramaticales b\u00e1sicas desempe\u00f1an un papel importante en la mayor\u00eda de las lenguas conocidas. \u00bfHa pensado alguna vez que la puntuaci\u00f3n tambi\u00e9n desempe\u00f1a un papel fundamental?La puntuaci\u00f3n es importante en el lenguaje. Implica la disposici\u00f3n correcta de peque\u00f1os signos, a veces apenas perceptibles, en los lugares [&hellip;]<\/p>\n","protected":false},"author":70,"featured_media":35793,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[148],"tags":[155],"class_list":["post-86320","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","tag-transcripcion-automatica"],"acf":{"text":"","link":"","questions":""},"_links":{"self":[{"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/posts\/86320","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/users\/70"}],"replies":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/comments?post=86320"}],"version-history":[{"count":0,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/posts\/86320\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/media\/35793"}],"wp:attachment":[{"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/media?parent=86320"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/categories?post=86320"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/es\/wp-json\/wp\/v2\/tags?post=86320"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}