Génération d'applications avec des LLM, revu par un développeur

Image présentation

Objectif Link to heading

Tester et comparer différents modèles LLM pour créer une application simple en Node.js, afin d’identifier leurs forces et faiblesses.

J’ai un accès à GitHub Copilot Pro à 10 € par mois, ce qui me donne accès à certains modèle.

Instructions données aux modèles Link to heading

Tu dois réaliser une application en NodeJs. Ne t'arrête pas tant que toutes les consignes ne sont pas respectées.

# Objectif

Servir une route sur http://localhost:3520/index.html qui affiche les menus de la semaine, avec des recettes aléatoires.

# Données

- Génère un set 100 de données représentant des idées de recettes (entrée, plat, dessert) classiques françaises dans un fichier JSON. Propose un format adapté et évolutif.

# Contraintes fonctionnelles

- Avoir un mode light et un mode dark.
- Avoir un affichage responsive.

# Contraintes techniques

- Utiliser NPM pour la gestion des dépendances.
- Utiliser Git pour le versionnage du code.
- Utiliser ESLint avec la configuration standard.
- Utiliser Prettier pour le formatage du code.
- L'application doit utiliser ExpressJs.
- Utiliser Handlebars comme moteur de template.
- Utiliser des fichiers JSON pour stocker les données.
- Couverture de code minimum de 85%, en utilisant Istanbul avec `mocha`. Ni trop, ni trop peu de tests.

Résultats Link to heading

Tous les modèles ont produit une application fonctionnelle et responsive, avec une couverture de test supérieure à 85 %, en très peu de temps.

Visuels Link to heading

Grok Code Fast 1

Image présentation

Claude Sonet 4.5

Image présentation

OpenAI GPT-5 Codex

Image présentation

Gemini CLI

Image présentation

Tableau comparatif Link to heading

Modèle LLM Temps (min) Lignes de code Qualité Coût Notes
Grok Code Fast 1 8 86 Simple et efficace Requêtes non premium sur GitHub Copilot 🔴 Version ancienne des dépendances
Claude Sonet 4.5 14 440 Complet, code bien structuré Requêtes premium sur GitHub Copilot 🔴 Pinaille sur le code coverage
🔴 Version ancienne des dépendances
OpenAI GPT-5 Codex 25 506 Avancé, structuré, mais trop verbeux/inutile Requêtes premium sur GitHub Copilot 🔴 Lent pour gros fichiers JSON
🔴 Aller-retours de lint
🔴 Pas de versionnage Git
🟢 Plus évolutif, fonction aléatoire paramétrable
Gemini CLI 8 87 Minimaliste, peu structuré Requêtes gratuites dans une limite mensuel 🔴 Moins pratique dans le CLI que VSCode Copilot Chat
🔴 Pas de npm start
🔴 Oublie .nyc_output dans .gitignore
🔴 89 recettes générées au lieu des 100 demandées

Conclusion personnelle Link to heading

Pour de petites modifications rapides, Grok Code Fast 1 est réactif et efficace.

Pour des projets nécessitant structuration, évolutivité et tests complets, GPT-5 Codex reste le meilleur choix malgré un temps de génération plus long.

Les modèles ont des résultats plutôt proche et aucun n’est mauvais.

La suite Link to heading

Continuer d’explorer les capacités et tester d’autres cas d’usage :

  • Résolution de bugs
  • Génération de tests
  • Revues de code

Comparaison avec benchmarks existants

Annexe - Structure du code Link to heading

Grok Code Fast 1

Claude Sonet 4.5

OpenAI GPT-5 Codex

Gemini CLI

← Automatiser la création et la correction de tickets Jira avec n8n et l’IA
Comment l'IA transforme le développement logiciel →