Tom Lebrun
Tom Lebrun est juriste et doctorant en culture numérique à l’Université Laval sous la direction de René Audet et la codirection de Georges Azzaria, où il travaille sur les questions de génération de textes par intelligence artificielle (IA).
Chargé de cours en droit et IA et anciennement en approches de la culture numérique, il publie régulièrement sur les thématiques liées. Ses recherches sont financées par le Fonds de Recherche du Québec Société et Culture (FRQSC).
Vous avez aimé cette communication scientifique? Découvrez les autres de cette troisième livraison.
Cher Tom,
Merci pour cette présentation passionnante ! Je ne connaissais pas du tout cette pratique de génération de textes littéraires par apprentissage machine. À vrai dire, je ne connaissais les applications de l’apprentissage machine que dans le domaine de la recherche (on utilise cette technologie avec l’équipe de Numapresse pour étudier de vastes corpus de presse ancienne numérisée!).
Ma question revient sur la distinction que tu mentionnes entre le « texte » (qu’il soit texte source ou texte généré par l’IA) et l’«œuvre» ou le «livre», qui procède d’une intention humaine et poétique. Je me demande en fait quelles sont les formes de présentation ou de diffusion des textes littéraires que tu évoques (que ceux-ci relèvent d’une appropriation fanique des sources ou d’une réécriture d’un premier jet produit par l’IA) ? Les auteurs cherchent-ils à les faire entrer dans le format du livre, pour les légitimer et leur faire rencontrer un lectorat? Ces textes sont-ils plutôt diffusés sous forme de textes « purs », avec un minimum de formatage, comme pour signaler leur origine? Je m’interroge, en somme, sur la mise en forme et la diffusion de ces textes, et le rapport que les auteurs entretiennent avec le format de leur production textuelle.
Merci d’avance pour ta réponse!
Mélodie
Bonjour Mélodie,
Merci pour cette question 🙂
Pour te répondre schématiquement, il y a bel et bien une distinction à faire entre les modes de publication des textes qui relèvent de l’appropriation fanique et ceux qui relèvent d’une réécriture d’un premier jet produit par l’IA.
De ce que j’observe, les auteurs qui créent des textes relevant de l’appropriation fanique ne cherchent quasiment jamais à les publier de façon traditionnelle : cela se passe essentiellement en ligne, sur des sites ou des plateformes dédiées (Literai.com, le concours NaNoGenMo sur GitHub…). Ils ne se considèrent du reste pas comme des auteurs (comme beaucoup d’auteurs de fan fiction du reste, même s’il y a des différences fondamentales entre auteur de fan fiction et auteur de texte appropriant, ce dernier n’ayant pas besoin d’être fan donc de maîtriser l’univers fictionnel concerné).
En dehors de cette raison ayant trait à la posture de l’auteur « appropriant », je dirais qu’il y a également des raisons d’ordre légal : publier veut potentiellement dire faire de l’argent, et un texte qui serait trop similaire avec une source violerait le droit d’auteur et pourrait donner lieu à des poursuites. Ce qui a déjà été le cas, avec l’affaire Just This Once de Scott French (1993), qui appropriait des textes de Jacqueline Susann. Ce n’était pas à proprement parler du machine learning tel qu’on l’entend aujourd’hui, plutôt un système expert dédié à créer « comme » du Susann, mais les enjeux restent les mêmes.
À l’inverse, les auteurs qui retravaillent un premier jet généré par IA n’hésitent pas à publier ces textes, qu’ils considèrent bien plus facilement comme des oeuvres dont ils sont les auteurs. Beaucoup d’exemples : PharmakoAI, ReRites, les textes de Robin Sloan ou ceux de Stephen Marche à venir (dans le New Yorker et d’autres revues). Le rapport au texte n’est pas du tout le même, les auteurs font directement usage du mode de légitimation distinctif que leur procure la génération par IA pour se distinguer dans le champ littéraire. Logiquement, il y a donc recherche des modes de légitimation traditionnels (publication, recherche de réactions institutionnelles et notamment universitaires), que la démarche soit narrative, poétique ou journalistique.
C’est un peu schématique, et il faudrait pour être tout à fait juste affiner le propos : tous les auteurs éditent souvent minimalement le texte qu’ils génèrent, ne serait-ce que par « cherry picking » (sélection des meilleurs passages générés), ce qui tend à flouer la distinction entre ces différents textes. Mais de façon générale, oui, les rapports quant à la mise en forme et à la diffusion de ces textes sont fondamentalement distincts : les premiers ne considèrent pas leurs textes comme ayant une quelconque valeur littéraire (ce sont seulement des textes et non des « oeuvres », qui ne méritent donc pas d’être publiés en format papier) tandis que les autres considèrent leurs productions comme relevant de leur expression personnelle, et à ce titre peuvent les qualifier d’oeuvres (et conséquemment cherchent à les publier et à bénéficier des différents modes de légitimation de l’autorité en matière littéraire).
N’hésite pas à me dire si tu souhaites que j’élabore sur un point ou un autre !
Tom
Merci beaucoup pour ta réponse éclairante ! On aura, je l’espère, l’occasion d’en discuter de nouveau lors de la rencontre synthèse.
À bientôt,
Mélodie
Bonjour Tom,
Excellente présentation, merci!
J’avais exactement la même question que Mélodie par rapport à la diffusion des textes générés par IA : merci, donc, pour ta précédente réponse. 🙂
J’ai une autre question concernant les textes utilisés à l’entrée. Je ne connais pas grand-chose à l’apprentissage machine (la question sera donc peut-être bien naïve), mais de ce que j’en sais, il semble qu’il faille une très grande quantité de textes pour que le machine learning puisse avoir lieu et soit efficace. Tes deux premiers exemples sur l’appropriation fanique pointent dans ce sens : Harry Potter et À la recherche du temps perdu constituent tous deux des corpus importants en termes de nombre de mots. Même dans le cas de la réécriture du premier jet généré par la machine, tu parles de « grande grande diversité des sources » utilisées par les auteurs comme matériau brut, et on dirait à t’entendre que la quantité est aussi importante que la diversité en elle-même. Ma question est donc la suivante : quelle est la quantité minimale de texte nécessaire pour permette l’apprentissage machine et, surtout, pour que les résultats soient concluants et intéressants? Est-ce qu’une œuvre (ou un texte) pourrait être générée à partir de textes courts et peu nombreux? Est-ce que la qualité de l’œuvre ou du texte produit au final dépend en grande partie de la quantité de mots utilisés à l’entrée par la machine?
Merci d’avance pour ta réponse!
Salut Joanie,
Super question, qui me permet d’arrimer pas mal d’éléments que je n’ai pas pu intégrer dans la présentation. Je vais essayer d’y répondre dans l’ordre.
1) La quantité de texte influe effectivement directement sur la qualité de l’apprentissage. On a du mal à se faire une idée de la quantité de texte nécessaire pour permettre à un système d’apprendre, mais c’est vraiment énorme. Pour te donner une idée, j’ai entraîné un système d’apprentissage machine sur un corpus reprenant toute l’oeuvre de Proust… Corpus qui parait énorme d’un point de vue littéraire, mais qui reste très petit d’un point de vue informatique : environ 3,1 MégaOctets. Pour commencer à avoir des résultats semi-pertinents, on considérait avant 2018 qu’il fallait utiliser au moins 100 MégaOctets de texte. Donc plus de 32 fois tout Proust (et ça inclut les textes non publiés de son vivant !). Depuis 2-3 ans, de nouveaux systèmes ont émergé, qu’on qualifie de système « pré-entraînés » (leurs noms, pour info : BERT, GPT-2, GPT-3, Switch-C…). Ces systèmes sont extrêmement performants, et permettent pour la première fois de générer du texte qui semble cohérent à la lecture (il y a beaucoup à dire sur cet enjeu, je ne m’aventure pas là-dedans pour ne pas trop m’éloigner dans l’explication). Pour résumer rapidement, ces systèmes « pré-entraînés » sont utilisés sur des jeux de données gigantesques. La totalité de Wikipedia, par exemple, ne représente qu’un infime pourcentage (moins de 3%) du corpus d’entraînement de GTP-3. Ça te donne une idée de la quantité de texte nécessaire ! Switch-C serait entraîné sur 740 Giga de données. Je te laisse faire le calcul pour voir ce que ça représente par rapport à l’oeuvre de Proust 😉
2. En dehors du cas particulier des systèmes « pré-entraînés », rien n’empêche de générer quelque chose à partir d’un texte « court ». Le résultat sera évidemment peu pertinent d’un point de vue narratif, mais ce n’est pas forcément l’objectif visé. Sofian Audry, un artiste montréalais et professeur à l’UQAM, a par exemple créé une oeuvre intitulée « For the sleepers on that quiet eart » qui est entraînée à partir de « Wuthering Heights ». Un corpus très limité donc, mais l’objectif d’Audry n’est pas de créer un texte cohérent, mais de reproduire dans le livre le phénomène de l’apprentissage par le système de l’oeuvre de Brontë. On voit donc des caractères apparaitre de façon aléatoire en apparence (en apparence seulement), lesquels se lient entre eux au fil des pages pour former des mots, puis peu à peu des phrases… Sans que ces mots, ni ces phrases, n’aient nécessairement de sens : le sens proviendra seulement si la probabilité le permet.
3. Donc oui, clairement, la qualité dépend de la quantité de textes utilisée au départ pour l’apprentissage. Si par qualité on entend bien sûr cohérence littéraire, narrative, poétique… Les émotions transmises par le texte seront toujours le fruit d’une appréhension probabiliste des sources. On ne peut pas à proprement parler de coïncidence pour désigner les passages d’un texte qui pourraient nous émouvoir, mais on ne peut pas non plus parler d’intention du système : ça limite, en ce sens, notre rapport au texte et à sa qualité.
J’espère que ça répond à ta question. N’hésite pas à me revenir 🙂
Tom
C’est vraiment fascinant, merci pour tes réponses! On aura l’occasion d’en reparler, sans doute, lors de la rencontre synchrone du 17 mai prochain.
À bientôt!
Joanie