{"id":76524,"date":"2021-06-08T10:06:48","date_gmt":"2021-06-08T10:06:48","guid":{"rendered":"https:\/\/wp-staging.amberscript.com\/blog\/dutch-punctuation-model\/"},"modified":"2023-03-01T13:56:18","modified_gmt":"2023-03-01T12:56:18","slug":"modele-de-ponctuation-neerlandaise","status":"publish","type":"post","link":"https:\/\/wp-staging.amberscript.com\/fr\/blog\/modele-de-ponctuation-neerlandaise\/","title":{"rendered":"Mod\u00e8le de ponctuation n\u00e9erlandaise"},"content":{"rendered":"\n<p>Les aspects grammaticaux comme le g\u00e9rondif, les pr\u00e9positions et les r\u00e8gles de grammaire de base jouent un r\u00f4le important dans la plupart des langues connues. Avez-vous d\u00e9j\u00e0 pens\u00e9 au fait que la ponctuation joue \u00e9galement un r\u00f4le essentiel ? La ponctuation est importante dans une langue. Elle implique la disposition correcte de petites marques, parfois \u00e0 peine perceptibles, \u00e0 des endroits appropri\u00e9s pour indiquer la longueur exacte et le sens de la phrase. Dans la suite du texte, nous allons examiner de plus pr\u00e8s le mod\u00e8le de ponctuation IA que nous avons d\u00e9velopp\u00e9 pour notre syst\u00e8me de reconnaissance vocale en n\u00e9erlandais.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Le r\u00f4le de la ponctuation dans la langue<\/h2>\n\n\n\n<p>La ponctuation fait partie int\u00e9grante du texte \u00e9crit et contribue \u00e0 le rendre intelligible et coh\u00e9rent. L&rsquo;absence de ponctuation nuit \u00e0 la lisibilit\u00e9 et peut rendre les textes incompr\u00e9hensibles. En outre, les signes de ponctuation r\u00e9duisent l&rsquo;ambigu\u00eft\u00e9. Prenons cet exemple o\u00f9 une virgule peut compl\u00e8tement modifier le sens d&rsquo;une phrase :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><em>\u201cTu veux manger Thomas ?\u201d<\/em><\/p><\/blockquote>\n\n\n\n<p class=\"has-text-align-center\">vs<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><em>\u201cTu veux manger, Thomas ?\u201d<\/em><\/p><\/blockquote>\n\n\n\n<p>L&rsquo;absence de ponctuation peut \u00e9galement conduire \u00e0 des phrases maladroites, comme dans cet exemple classique :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><em>\u201cJe trouve l\u2019inspiration en cuisinant ma famille et mon chien\u201d<\/em><\/p><\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\">La ponctuation dans la transcription de la parole vers le texte<\/h2>\n\n\n\n<p>Par cons\u00e9quent, les syst\u00e8mes de conversion de la parole vers le texte doivent inclure la ponctuation lorsqu&rsquo;ils produisent une transcription. Cependant, les syst\u00e8mes classiques de reconnaissance automatique de la parole ne produisent pas de signes de ponctuation puisqu&rsquo;ils n&rsquo;ont pas de forme orale. De plus, la transcription g\u00e9n\u00e9r\u00e9e est compos\u00e9e uniquement de mots en minuscules, ce qui la rend difficile \u00e0 comprendre. Une transcription correctement ponctu\u00e9e facilite \u00e9galement la cr\u00e9ation automatique de sous-titres pour les vid\u00e9os.<\/p>\n\n\n\n<p>Ce probl\u00e8me peut \u00eatre r\u00e9solu en int\u00e9grant un mod\u00e8le de ponctuation s\u00e9par\u00e9 qui peut ajouter automatiquement la ponctuation \u00e0 la sortie d&rsquo;un mod\u00e8le de reconnaissance automatique de la parole. Il peut \u00eatre consid\u00e9r\u00e9 comme un probl\u00e8me de traitement du langage naturel dont l&rsquo;objectif est de pr\u00e9dire le signe de ponctuation (ou son absence) pour chaque mot d&rsquo;une transcription.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Mod\u00e8les de langages<\/h2>\n\n\n\n<p>L&rsquo;apprentissage approfondi a connu d&rsquo;\u00e9normes progr\u00e8s au cours des derni\u00e8res ann\u00e9es, aliment\u00e9s par l&rsquo;augmentation de la puissance de calcul. Le domaine du traitement du langage naturel a \u00e9t\u00e9 pris d&rsquo;assaut par l&rsquo;introduction de <a href=\"https:\/\/datascientest.com\/bert-un-outil-de-traitement-du-langage-innovant\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">BERT<\/a> en 2018. D\u00e9velopp\u00e9 par Google AI, BERT est un grand mod\u00e8le de langage bas\u00e9 sur <a href=\"https:\/\/fourweekmba.com\/fr\/architecture-du-transformateur\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">l&rsquo;architecture du transformateur<\/a>. Il a \u00e9t\u00e9 pr\u00e9sent\u00e9 comme le moment ImageNet du traitement automatique de la parole, en r\u00e9f\u00e9rence \u00e0 la fa\u00e7on dont ImageNet a orient\u00e9 les progr\u00e8s de l&rsquo;apprentissage de la repr\u00e9sentation \u00e0 partir d&rsquo;images dans le domaine de la vision par ordinateur. BERT constitue une am\u00e9lioration notable par rapport aux mod\u00e8les ant\u00e9rieurs de repr\u00e9sentation du langage, tels que les encastrements <a href=\"https:\/\/nlp.stanford.edu\/pubs\/glove.pdf\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">GloVe<\/a>, et aux repr\u00e9sentations contextuelles telles que <a href=\"https:\/\/arxiv.org\/abs\/1802.05365\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">ELMo<\/a>. <\/p>\n\n\n\n<p>Pour une explication plus intuitive du fonctionnement de BERT, reportez-vous \u00e0 <a href=\"https:\/\/jalammar.github.io\/illustrated-bert\/\" target=\"_blank\" rel=\"noreferrer noopener\">cet excellent blog de Jay Alammarhis excellent blog post by Jay Alammar<\/a>. En r\u00e9sum\u00e9, BERT est entra\u00een\u00e9 sur des textes bruts de mani\u00e8re auto-supervis\u00e9e, c&rsquo;est-\u00e0-dire sans annotations humaines. Plus pr\u00e9cis\u00e9ment, il est entra\u00een\u00e9 \u00e0 deux t\u00e2ches : la mod\u00e9lisation du langage masqu\u00e9 et la pr\u00e9diction de la phrase suivante. \u00c0 la fin de l&rsquo;entra\u00eenement, le mod\u00e8le est dit \u00ab\u00a0pr\u00e9-entra\u00een\u00e9\u00a0\u00bb et capture la s\u00e9mantique du langage avec ses repr\u00e9sentations de mots et de phrases. Un BERT pr\u00e9-entra\u00een\u00e9 peut ensuite \u00eatre affin\u00e9 sur une t\u00e2che de traitement automatique des langues en aval. Lors de sa publication, BERT a produit des r\u00e9sultats de pointe apr\u00e8s un r\u00e9glage fin sur une s\u00e9rie de t\u00e2ches de traitement automatique des langues, y compris l&rsquo;inf\u00e9rence en langage naturel, la r\u00e9ponse \u00e0 des questions, etc. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Mod\u00e8le de ponctuation chez Amberscript<\/h2>\n\n\n\n<p>Chez Amberscript, nous d\u00e9veloppons des mod\u00e8les de reconnaissance automatique de la parole personnalis\u00e9s, dont un pour le n\u00e9erlandais. Comme indiqu\u00e9 pr\u00e9c\u00e9demment, les transcriptions produites par le mod\u00e8le sont d\u00e9pourvues de signes de ponctuation. Actuellement, il n&rsquo;existe aucun mod\u00e8le de ponctuation libre sp\u00e9cifique \u00e0 la langue n\u00e9erlandaise. Nous avons donc d\u00e9velopp\u00e9 un mod\u00e8le de ponctuation bas\u00e9 sur BERT pour ajouter automatiquement les signes de ponctuation suivants : point d&rsquo;interrogation, point, point d&rsquo;exclamation, virgule, deux-points et point-virgule. Les autres signes de ponctuation qui apparaissent par paires, tels que les guillemets et les parenth\u00e8ses, sont beaucoup plus difficiles \u00e0 d\u00e9terminer sur la seule base du texte.<\/p>\n\n\n\t<div class=\"related-content\">\n\t\t\n\t<div class=\"grid-x align-center grid-margin-x grid-margin-y\">\n\n<style>\n\t.test123 {\n\t\tdisplay: none;\n\t}\n<\/style>\n<div class=\"test123\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\tSoftware &#8211; Transcription\t\t\t\t\t\t\t<\/div>\n\n\t\t\n\t\t\t\n\t\t\t\n\n\t\t\t\n\n\n\t\t\t\n\n\n\n\t\t\t\n\n\n\n\n\t\t<\/div>\n\n\t<\/div>\n\n\n\n<p><\/p>\n\n\n<div class=\"single-block\">\n\t<div class=\"grid-x\">\n\t\t<div class=\"cell large-11\">\n\t\t\t<div class=\"single single-banner background purple\">\n\t\t\t\t<div class=\"grid-x align-middle\">\n\t\t\t\t\t<div class=\"cell large-3 text-center\">\n\t\t\t\t\t\t<div class=\"grid-x align-center align-middle\">\n                \t\t\t\t\t\t\t\t\t<div class=\"cell large-12\">\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/01\/cover-image.svg\" alt=\"Icona dell'interfaccia del sito web di Amberscript\"\n\t\t\t\t\t\t\t\t\t\t\t\t style=\"width: 250px; max-height: none\"\/>\n\t\t\t\t\t\t\t\t\t<\/div>\n                \t\t\t\t\t\t\t<div class=\"cell large-12\">\n\n                  \t\t\t\t\t\t\t\t\t\t<a class=\"button theme-background-secondary\" data-offset=\"200\" href=\"https:\/\/wp-staging.amberscript.com\/fr\/demandez-un-devis\/\" target=\"_self\" data-smooth-scroll>Demandez un devis<\/a>\n                  \n\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t\t<div class=\"cell large-8 large-offset-1\">\n\t\t\t\t\t\t<h3>Transformez votre audio et vos vid\u00e9os en texte et sous-titres<\/h3>\n              \t\t\t\t\t\t\t\t<div class=\"theme-color-primary\">\n                    <ul>\n<li>Un service de haute pr\u00e9cision, \u00e0 la demande<\/li>\n<li>Prix comp\u00e9titifs et d\u00e9lais d&rsquo;ex\u00e9cution rapides gr\u00e2ce \u00e0 l&rsquo;IA<\/li>\n<li>T\u00e9l\u00e9chargez, recherchez, \u00e9ditez et exportez des sous-titres en toute simplicit\u00e9<\/li>\n<\/ul>\n\t\t\t\t\t\t\t\t<\/div>\n              \t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t<\/div>\n\t\t<\/div>\n\t<\/div>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\">Pipeline<\/h2>\n\n\n\n<p>L&rsquo;ensemble du pipeline de reconnaissance automatique de la parole se compose donc de trois \u00e9l\u00e9ments principaux : le mod\u00e8le de reconnaissance automatique de la parole qui produit du texte en minuscules, un module de post-traitement qui met en majuscules les entit\u00e9s nomm\u00e9es (noms de personnes, de lieux, etc.), effectue une d\u00e9normalisation des nombres, des corrections orthographiques, etc. et enfin, un mod\u00e8le de ponctuation qui ajoute les signes de ponctuation n\u00e9cessaires.<\/p>\n\n\n<div class=\"wp-block-image\"><div class=\"image-block-wrapper\">\n<figure class=\"aligncenter size-large is-resized\"><img decoding=\"async\" src=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-509x720.jpeg\" alt=\"Infographic explaining Amberscript's 5-step punctuation process - from audio to finished transcript\" class=\"wp-image-35758\" width=\"620\" srcset=\"https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-509x720.jpeg 509w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-339x480.jpeg 339w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-768x1086.jpeg 768w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-1086x1536.jpeg 1086w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model-1448x2048.jpeg 1448w, https:\/\/wp-staging.amberscript.com\/wp-content\/uploads\/2021\/06\/Dutch-punctation-model.jpeg 1587w\" sizes=\"(max-width: 509px) 100vw, 509px\" \/><figcaption>Infographie expliquant le processus de ponctuation en 5 \u00e9tapes d&rsquo;Amberscript &#8211; de l&rsquo;audio \u00e0 la transcription finale.<\/figcaption><\/figure>\n<\/div><\/div>\n\n\n<h2 class=\"wp-block-heading\">D\u00e9monstration<\/h2>\n\n\n\n<p>Pour montrer le mod\u00e8le de ponctuation en action, nous pouvons prendre cet exemple de sortie du mod\u00e8le de reconnaissance automatique de la parole :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\"><p>nog een laatste een likje verf zodat de attracties er piekfijn uitzien hier is alles bijna klaar om weer open te kunnen <em>je merkt dat het nu weer begint te kriebelen eigenlijk bij ons alle monteurs zijn weer bezig de groendienst is weer bezig het park mooi te maken de schoonmaakdienst is alles weer aan het schoonmaken dus we zijn er echt gereed een maken om straks weer de poorten te openen<\/em><\/p><\/blockquote>\n\n\n\n<p>Le r\u00e9sultat de l&rsquo;application du post-traitement et du mod\u00e8le de ponctuation est le suivant :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-left is-layout-flow wp-block-quote-is-layout-flow\"><p><em>Nog een laatste: een likje verf, zodat de attracties er piekfijn uitzien. Hier is alles bijna klaar om weer open te kunnen. Je merkt dat het nu weer begint te kriebelen eigenlijk bij ons. Alle monteurs zijn weer bezig. De groendienst is weer bezig het park mooi te maken. De schoonmaakdienst is alles weer aan het schoonmaken, dus we zijn er echt gereed een maken om straks weer de poorten te openen.<\/em><\/p><\/blockquote>\n\n\n\n<p>Remarquez que la transcription du mod\u00e8le de reconnaissance automatique de la parole est difficile \u00e0 lire, alors que la transcription finale apr\u00e8s ajout de signes de ponctuation est plus naturelle.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ponctuation incluse dans les transcriptions \u00e0 effectuer \u00e0 partir d&rsquo;Amberscript<\/h2>\n\n\n\n<p>Si vous recherchez une transcription claire et pr\u00e9cise, avec une ponctuation correcte, vous devriez essayer d&rsquo;utiliser un <a href=\"https:\/\/wp-staging.amberscript.com\/fr\/produits\/transcription-automatique\/\" target=\"_blank\" rel=\"noreferrer noopener\">service de transcription automatique d&rsquo;Amberscript.<\/a><br><\/p>\n\n\n\n<p>Nous proposons des options de transcription rapides, pr\u00e9cises et abordables qui am\u00e9lioreront certainement vos flux de travail. En outre, si vous avez besoin de la transcription la plus pr\u00e9cise, vous devriez essayer <a href=\"https:\/\/wp-staging.amberscript.com\/fr\/produits\/transcription-manuelle\/\" target=\"_blank\" rel=\"noreferrer noopener\">la transcription manuelle d&rsquo;Amberscript<\/a>. Nos experts linguistiques sont des locuteurs natifs et cr\u00e9ent les textes les plus pr\u00e9cis en \u00ab\u00a0clean read\u00a0\u00bb (texte rendu plus lisible) ou \u00ab\u00a0verbatim\u00a0\u00bb (tous les mots tap\u00e9s exactement comme ils ont \u00e9t\u00e9 dits).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les aspects grammaticaux comme le g\u00e9rondif, les pr\u00e9positions et les r\u00e8gles de grammaire de base jouent un r\u00f4le important dans la plupart des langues connues. Avez-vous d\u00e9j\u00e0 pens\u00e9 au fait que la ponctuation joue \u00e9galement un r\u00f4le essentiel ? La ponctuation est importante dans une langue. Elle implique la disposition correcte de petites marques, parfois [&hellip;]<\/p>\n","protected":false},"author":70,"featured_media":35788,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[143],"tags":[636],"class_list":["post-76524","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog","tag-automatic-transcription-fr"],"acf":{"text":"","link":"","questions":""},"_links":{"self":[{"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/posts\/76524","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/users\/70"}],"replies":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/comments?post=76524"}],"version-history":[{"count":0,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/posts\/76524\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/media\/35788"}],"wp:attachment":[{"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/media?parent=76524"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/categories?post=76524"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp-staging.amberscript.com\/fr\/wp-json\/wp\/v2\/tags?post=76524"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}