ChatGPT étudié grâce à Anatella
Le cabinet IntoTheMinds vient de publier une nouvelle étude réalisée grâce à notre ETL : Anatella. Cette étude fait a lumière sur les textes générés par ChatGPT et en particulier sur leur diversité. La promesse marketing d’OpenAi est en effet que chatGPT produise toujours des réponses différentes.
Prise au pied de la lettre, cette affirmation est vraie. Encore fallait-il objectiver la similarité des réponses obtenues. L’étude publié le 16 Février 2023 utilise un corpus de 1000 textes. Vingt questions ont été posées à chatGPT et les réponses régénérées 50 fois chacune.
Les données ont été préparées et analysées grâce à Anatella.
Trois flux de données ont été utilisés :
- un flux permet de calculer la similarité entre les itérations pour une même question
- un flux spécifique pour le calcul de la similarité entre chacun des 1000 textes
- un dernier flux se concentrant sur la similarité moyenne entre les réponses à des questions différentes
Les résultats sont riches :
- pour une même question, la similarité entre les différentes itérations est en moyenne de 75,3%
- entre des questions différentes, la similarité des réponses fournies est de 60,9%
- la similarité minimum mesurée est de 40%
- la longueur des réponses de chatGPT varie également largement. Les 1000 textes produits montrent des variations maximales de +176% et -70%.
Dans son rapport, IntoTheMinds met en avant la flexibilité d’Anatella, la rapidité d’exécution (1 million de calculs de similarité en 44 secondes) ainsi que la richesse des outils fournies. Si les visualisations ont été réalisées sous Tableau, l’auteur de l’étude (Pierre-Nicolas Schwab) relève que la transformation préalable des données dans Anatella a été indispensable pour contourner les limitations de Tableau.