<!--.slide: data-background="https://i.imgur.com/hs2qpFi.jpg" data-background-size="2000px" --> <div style="background-color: white; opacity:0.8;"> ### Des algorithmes pour définir nos concepts littéraires </br> #### Le cas de la variatio dans l'Anthologie grecque 21 mai 2022 Marcello Vitali-Rosati, Mathilde Verstraete Dominic Forest, Giulia Ferretti, Luiz Capelo, Timothée Guicherd <small>[Chaire de recherche du Canada sur les écritures numériques](https://ecrituresnumeriques.ca/fr/)</small> </div> Note: Cette communication vise à présenter les résultats préliminaires d'une recherche en cours qui tend à améliorer les définitions de concepts littéraires via l'utilisation d'algorithmes. La première phase de cette recherche se fait à partir d'un exemple de cas. Le corpus est celui de l'Anthologie grecque, le concept littéraire est celui de la *variatio*. Je commencerai par vous présenter rapidement ces deux éléments, pour laisser la parole à Marcello Vitali-Rosati qui parlera plus concrètement des expérimentations menées et des premiers résultats obtenus. --- <!--.slide: data-background="https://upload.wikimedia.org/wikipedia/commons/5/59/Britmus01-greekanth1.jpg" data-background-size="2000px" --> <div style="background-color: white; opacity:0.8;"> ## L'Anthologie grecque - *c.* 4000 épigrammes - *c.* 325 auteurs - *c.* XVI s. de littérature </div> Note: L’Anthologie grecque est un recueil qui regroupe la poésie épigrammatique grecque issue de la période classique jusqu’à la période byzantine, soit près de 4000 pièces, de 325 auteurs différents, s’étalant sur plus de 16 siècles. <!--L’expression « Anthologie grecque » désigne l’ensemble constitué par deux parties. D’une part, l’Anthologie palatine, un manuscrit datant du X^e^ siècle (le Codex Palatinus 23) retrouvé en 1606 par Claude Saumaise à la Bibliothèque palatine de Heidelberg. D’autre part, l’Appendix Planudea, soit les épigrammes absentes du manuscrit palatin présentes dans l’Anthologie de Planude, une compilation achevée en 1301 par Maxime Planude. --> L'Anthologie grecque renferme donc des épigrammes, à savoir des petits poèmes assez simples. Ce genre littéraire nait en Grèce et perdure jusqu’à aujourd’hui, tout en évoluant de manière significative. À l’intérieur de la littérature grecque, déjà, le genre évolue sensiblement. Originellement, en effet, les épigrammes servent à graver dans le marbre, le bronze, la pierre, une inscription, assez simple, d’une ou deux lignes, décrivant une tombe, une statue, un ex-voto,… La versification de ces inscriptions se généralise lors du VIe siècle. Dès l’époque alexandrine (III-II^e^), l’épigramme se détache de son support, se diversifie dans son propos.Elle finira par se définir par sa brièveté (brevitas) et son trait piquant (argutia). --- <!--.slide: data-background="https://i.imgur.com/Q0jFOU6.png" data-background-size="800px" --> Note: Marcello Vitali-Rosati et Elsa Bouchard épaulés par de nombreux étudiant.e.s travaillent depuis 2014 à une édition numérique et collaborative de l’Anthologie grecque. Cette édition numérique de l’Anthologie donne accès, pour chaque épigramme, au texte original (image et transcription), à diverses traductions multilingues, érudites et amateures, aux commentaires marginaux du manuscrit, mais aussi à des commentaires contemporains. La plateforme et le modèle de données sur lequel elle se construit favorisent la mise en évidence des relations intertextuelles présentes à l’intérieur du manuscrit, notamment par l’usage de marqueurs codés (auteurs, thèmes, mots-clés, etc.). Tout au long de ce projet, des données ont été produites et sont récupérables via une API. --- <!--.slide: data-background="https://i.imgur.com/qo8T7Lt.png" data-background-size="1300px" --> <div style="background-color: white; opacity:0.8;"> ## La *variatio* et l'*Anthologie grecque* </div> Note: L’Anthologie grecque constitue un corpus précieux et diversifié de formes intertextuelles, dont celle de la variation. Concrètement, la variation consiste à reprendre un texte d’un prédécesseur ou contemporain et de l'adapter. On n’est pas très loin de ce qu’on appelle “plagiat” aujourd’hui, à la différence que le procédé était plutôt encouragé par les pratiques rhétoriques de l'époque. <!--Pour Pierre Laurens, qui consacra un vaste volume au genre épigrammatique, le changement dans la répétition est un procédé d’engendrement à l’infini, c’est la loi générale qui commande la production de la littérature grecque et son évolution.--> Le procédé prend de l'ampleur chez les épigrammatistes du III^e^ siècle. L’épigramme était le genre idéal pour la pratique de la variatio, se prêtant à des variations presque infinies. La simplicité de la forme permet en effet aux auteurs de s'illustrer en l’espace de quelques vers seulement. La taille du poème rend impossible à un poète d’épuiser la richesse d’un sujet à l’intérieur d’une unique épigramme. La reprise d’un même sujet, en le variant, permet d’en faire sortir toutes les facettes successivement. Il y a enfin une notion de défi : plus le thème a été traité, plus il est difficile de le varier, plus le triomphe est grand. Dès lors, les objets qui composent une épigramme issue d'une séquence de variation deviennent des variables, qui sont commutables. Selon Pierre Laurens, la variation peut être stylistique, rhétorique ou paradigmatique. La variation stylistique porte sur les mots et leur agencement: on innove en déplaçant des éléments, en modifiant le lexique et le style. La variation rhétorique progresse, s’attachant plutôt à l’objet, permettant au poète plus de liberté quant à l’organisation du poème. La variation paradigmatique enfin fait varier le sujet lui-même, le considérant comme une variable parmi d’autres. J'évoquerai rapidement la séquence de variation des épigrammes 11 à 16 et 179 à 187 du livre VI, dont vous avez les traductions à l'écran. Elles rapportent la dédicace de trois frères (Damis, chasseur, Cléitor, pêcheur, Pigrès, oiseleur) au dieu Pan. Chacun offre un filet adapté à son style de chasse. L’originale (VI.13) est due à Léonidas de Tarente. L’épigramme a été reprise 14 fois, plusieurs poètes l’ont même variée plusieurs fois. --- <!--.slide: data-background="https://i.imgur.com/vBXmLWB.png" data-background-size="1300px" --> Note: Les variations sont essentiellement lexicales: recherche de synonymes, changement de la syntaxe, nombre de vers différentes,... Une épigramme "hors série", la VI.17, est une variation paradigmatique : le sujet-même de la pièce change, tout en gardant une syntaxe et structure similaire. Nous vous en dirons plus en fin de présentation. --- <!--.slide: data-background="https://i.imgur.com/j1FLWE3.png" data-background-size="1300px" --> <div style="background-color: white; opacity:0.8;"> ## L'hypothèse Définir un concept littéraire avec un algorithme </div> Note: L'intelligence artificielle est ainsi mise au service de la théorie de la littérature plutôt que de l'analyse littéraire. Est-il possible de donner une définition formelle – ou, plus précisément, computationnelle et algorithmique – d’un concept littéraire ? Ce projet pilote entend donner une réponse à cette question à partir d’une étude de cas sur le concept littéraire de « variation » dans l’Anthologie grecque, un corpus de 4000 épigrammes écrites par plus de 300 auteurs différents. Literature is not data, écrivait Stéphane Marche (Marche 2012) dans un article qui a suscité beaucoup de débats et de discussions au sein de la communauté littéraire. Il se ralliait à une longue tradition théorique qui pose une distinction nette entre sens et syntaxe (voir aussi John Searle (1980)) : ce qui relève du sens, de l’humain, ne serait pas calculable par une machine. L’hypothèse de ce projet est que la littérature est un ensemble de données, mais très complexes, et que, pour rendre compte de cette complexité, il est nécessaire de développer des modèles formels riches. Pour vérifier notre hypothèse, nous allons utiliser des algorithmes (ensemble des règles opératoires propres à un calcul, suite de règles formelles) non pas pour chercher des contenus ou pour faire de nouvelles découvertes à propos de notre corpus, mais pour essayer de définir de façon formelle un concept : celui de variation. Au lieu de chercher de nouvelles variations dans l’Anthologie grecque, nous allons démarrer avec la liste de toutes celles qui sont considérées comme telles par les spécialistes de ce corpus. Nous allons ensuite essayer de définir un algorithme capable de les repérer. L’intelligence artificielle sera mise au service de la théorie de la littérature plutôt que de l’analyse littéraire. Si notre algorithme est capable de trouver toutes les variations identifiées en amont, cela signifiera que cet algorithme est, de fait, la définition formelle du concept de variation. Notre projet pilote vise à développer une méthode de formalisation des concepts littéraires qui pourrait ensuite être utilisée pourd’autres concepts et d’autres corpus. --- <!--.slide: data-background="https://i.imgur.com/syblFA6.png" data-background-size="1300px" --> <!-- .element: class="fragment" --> <div style="background-color: white; opacity:0.8;"> ## Les problèmes - peu de données - langue hétérogène - language poétique - langue difficile à pré-processer: - tokenisation - lemmatisation - ... </div> Note: ## Contraintes Cet exemple de cas que nous avons choisi produit plusieurs contraintes. Le corpus est en grec ancien, langue particulièrement complexe à inclure dans le traitement automatique des langues : - peu de données : le corpus grec est bien plus succinct que les corpus utilisés actuellement pour le traitement automatique des langues en anglais. Le Thesaurus Linguae Graecae contient 10,425 documents, à savoir 121,693,025 mots, appartenant à 272,272 lemmes. Ce corpus est fini, il n'est pas augmenté tous les jours par des nouvelles dans le journal. Dans l'Anthologie grecque, il y a 137,728 mots, et seulement 17,581 lemmes. - langue hétérogène : la langue utilisée au sein de l'Anthologie est issue de plus de 15 siècles, et sur un large territoire. Les dialectes, et évolutions linguistiques sont nombreuses. - il s'agit d'un corpus poétique, les auteurs cherchent le mot unique qui les distinguera les uns des autres. Il y a 1071 mots qui n'ont qu'une seule occurence dans l'ensemble du corpus. - la langue grecque est difficile à *pré-processer* : - comment tokenizer ? Il y a des élisions - que faire des accents, qui peuvent être porteurs de sens ? - lemmatisation complexe, plusieurs possibilités possibles - ... --- <!--.slide: data-background="https://i.imgur.com/j1FLWE3.png" data-background-size="1300px" --> <div style="background-color: white; opacity:0.8;"> ## Approches testées 1. Occurence de mots 3. Synonymes et Word Mover Distance - modèles w2v entraînés sur le TLG (fournis par M. Pöckelmann et le projet *Paraphrasis*) - GloVe entrané sur l'Anthologie 4. Tf-Idf (mesure de pondération) </div> --- <!--.slide: data-background="https://i.imgur.com/KUEsWnO.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/FUKqzUp.png" data-background-size="1300px" --> <div style="background-color: white; opacity:0.8;"> ## Une définition? **GloVe: matrice des cooccurences (entraîné sur l'AG, élément unitaire: épigramme)** - variation: par rapport à un corpus - léger déplacement sémantique (WMD) - ... </div> Note: W2V w2v split sur les phrases. P. a pris tous les corpus du TLG, qu'il a splité en phrases. il a ensuite entrainé un réseau de neurones. SI CBOW : donne en entrée le contexte, et l'output est deviné par l'algo. On lui donne des phrases ; il vectorialise les mots sur la base de la matrice du vectuer à construire pour qu'à partir d'un contexte on puisse deviner le mot attendu. SI SKIPGRAM : on lui donne le mot et il doit deviner le contexte. Nous on sait pas quelle approche a utilisé P. Différence fondammentale : GloVe est un algorithme qui transforme un mot en un vecteur basé sur la probabilité que ce mot se trouve dans la même phrase d'un autre mot. D'une part, on a qqch entrainé phrase par phrase et considère le sens d'un mot par rapport à une série de contexte séparé (chaque phrase = contexte) ; de l'autre côté, matrice de cooccurence. Ce qui compte pour construire le contexte sémantique, le sens des mots est un sens produit de façon contextuelle par rapport à un corpus déterminé. La variation est toujours une variation non pas par rapport à une langue mais plutôt par rapport à un corpus déterminé. Le sens des mots n'est pas un sens absolu qui s'est fait sur l'ensemble du corpus mais sur les relations que ces mots ont dans chaque épigramme. C'est comme si chaque épigramme était un petit monde et que ces mondes étaient d'une manière ou d'une autre liée pour produire le sens des mots. --- <!--.slide: data-background="https://i.imgur.com/FUKqzUp.png" data-background-size="1300px" --> <div style="background-color: white; opacity:0.8;"> ## Doutes - Plusieurs types de variation, plusieurs algorithmes ? - lexicale - stylistique - rhétorique - paradigmatique - ... - Pondérer les variations ? </div> Note: Le projet implique de donner une définion de variation. La définition sera forcément conditionnée par l'approche algorithmique. --- <!--.slide: data-background="https://i.imgur.com/KUEsWnO.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/FUKqzUp.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/XJCqhP8.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/5TVEhlQ.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/yCz9BBS.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/dUq6vre.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/89CjKhg.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/B5kb4py.png" data-background-size="1300px" --> --- <!--.slide: data-background="https://i.imgur.com/3UZ9a6p.png" data-background-size="1300px" --> --- <!-- ###### tags `Chaire` `AP` `2022` `presentation` `humanistica` `anthalgo` todo: - [X] ajout images - [X] préparer des tableaux avec les résultats des différentes approches - visu_glove_wmd : Tableau des premiers résultats : - tim_w2v_output.txt - les classer par distance - comparaison_epi_wmd : pour le tableau [12], regarder les premiers résultats et voir si c'est pertinent - ceux faits par Marcello -->
{"type":"slide","title":"Des algorithmes pour définir nos concepts littéraires","description":"présentation pour Humanistica 2021","slideOptions":{"transition":"slide","theme":"white"}}