Génération d'applications avec des LLM, revu par un développeur

Objectif Link to heading
Tester et comparer différents modèles LLM pour créer une application simple en Node.js, afin d’identifier leurs forces et faiblesses.
J’ai un accès à GitHub Copilot Pro à 10 € par mois, ce qui me donne accès à certains modèle.
Instructions données aux modèles Link to heading
Tu dois réaliser une application en NodeJs. Ne t'arrête pas tant que toutes les consignes ne sont pas respectées.
# Objectif
Servir une route sur http://localhost:3520/index.html qui affiche les menus de la semaine, avec des recettes aléatoires.
# Données
- Génère un set 100 de données représentant des idées de recettes (entrée, plat, dessert) classiques françaises dans un fichier JSON. Propose un format adapté et évolutif.
# Contraintes fonctionnelles
- Avoir un mode light et un mode dark.
- Avoir un affichage responsive.
# Contraintes techniques
- Utiliser NPM pour la gestion des dépendances.
- Utiliser Git pour le versionnage du code.
- Utiliser ESLint avec la configuration standard.
- Utiliser Prettier pour le formatage du code.
- L'application doit utiliser ExpressJs.
- Utiliser Handlebars comme moteur de template.
- Utiliser des fichiers JSON pour stocker les données.
- Couverture de code minimum de 85%, en utilisant Istanbul avec `mocha`. Ni trop, ni trop peu de tests.
Résultats Link to heading
Tous les modèles ont produit une application fonctionnelle et responsive, avec une couverture de test supérieure à 85 %, en très peu de temps.
Visuels Link to heading
Grok Code Fast 1

Claude Sonet 4.5

OpenAI GPT-5 Codex

Gemini CLI

Tableau comparatif Link to heading
| Modèle LLM | Temps (min) | Lignes de code | Qualité | Coût | Notes |
|---|---|---|---|---|---|
| Grok Code Fast 1 | 8 | 86 | Simple et efficace | Requêtes non premium sur GitHub Copilot | 🔴 Version ancienne des dépendances |
| Claude Sonet 4.5 | 14 | 440 | Complet, code bien structuré | Requêtes premium sur GitHub Copilot | 🔴 Pinaille sur le code coverage 🔴 Version ancienne des dépendances |
| OpenAI GPT-5 Codex | 25 | 506 | Avancé, structuré, mais trop verbeux/inutile | Requêtes premium sur GitHub Copilot | 🔴 Lent pour gros fichiers JSON 🔴 Aller-retours de lint 🔴 Pas de versionnage Git 🟢 Plus évolutif, fonction aléatoire paramétrable |
| Gemini CLI | 8 | 87 | Minimaliste, peu structuré | Requêtes gratuites dans une limite mensuel | 🔴 Moins pratique dans le CLI que VSCode Copilot Chat 🔴 Pas de npm start 🔴 Oublie .nyc_output dans .gitignore 🔴 89 recettes générées au lieu des 100 demandées |
Conclusion personnelle Link to heading
Pour de petites modifications rapides, Grok Code Fast 1 est réactif et efficace.
Pour des projets nécessitant structuration, évolutivité et tests complets, GPT-5 Codex reste le meilleur choix malgré un temps de génération plus long.
Les modèles ont des résultats plutôt proche et aucun n’est mauvais.
La suite Link to heading
Continuer d’explorer les capacités et tester d’autres cas d’usage :
- Résolution de bugs
- Génération de tests
- Revues de code
Comparaison avec benchmarks existants
Annexe - Structure du code Link to heading
Grok Code Fast 1

Claude Sonet 4.5

OpenAI GPT-5 Codex

Gemini CLI
