Where can I find free datasets for machine learning?

The best starting points are Kaggle Datasets and the UCI Machine Learning Repository. For broader searches, use Google Dataset Search and Hugging Face Datasets. Government portals like Data.gov and the World Bank also offer huge amounts of free, reliable data.

What is the best dataset for machine learning beginners?

Classic small, clean datasets: Iris (flower classification) and California Housing (price prediction), both built into scikit-learn, and the Titanic dataset on Kaggle. They are well-documented and let you focus on learning the machine learning workflow itself.

Is Kaggle free to use?

Yes. Kaggle is free — you can download tens of thousands of datasets, run code in free cloud notebooks, study other people's solutions, and enter competitions, all at no cost. It's one of the best free resources for learning machine learning.

What dataset should I use for a computer vision project?

Start with MNIST or Fashion-MNIST — small, clean image datasets ideal for a first vision model. Move up to COCO for object detection and segmentation, and ImageNet for large-scale image classification as your skills grow.

Can I use these datasets for commercial projects?

Many are freely licensed for any use, but licences vary by dataset. Always check the specific licence and terms before using a dataset in a commercial or publicly released project — don't assume "free to download" means "free for any purpose."

Can I legally train a commercial model on a free dataset?

Not always, and the license is what decides it. Datasets released as CC0 (public domain) are the safest for commercial use, while CC-BY permits commercial use but requires attribution. Many popular research datasets, including ImageNet, are restricted to non-commercial research and education only. Complicating matters, it is still legally ambiguous whether a model trained on a dataset counts as a "derivative work," so read each license carefully and, for anything you plan to ship, favor datasets with clear, permissive commercial terms.

How do I find a good tabular or CSV dataset for a beginner project?

Start with dataset search engines and hubs, then filter by file type to CSV and by a small-to-medium row count so the file opens easily in a spreadsheet or pandas. Look for datasets with a clear column description, a sensible number of features, and a well-defined target column to predict. Tidy, well-documented tabular sets are ideal for learning classic algorithms before you move on to images or text.

How can I check a dataset for label errors before I use it?

Pull a random sample of 50 to 100 rows and verify the labels by hand against the raw input. For larger or image datasets, confidence-learning tools such as cleanlab can automatically flag likely mislabeled examples by comparing each label against a model's predicted probabilities. Even a quick manual spot-check will tell you whether the noise level is low enough to trust your evaluation metrics.

15 meilleurs jeux de données gratuits pour les projets d'apprentissage automatique (2026)

Mis à jour 15 juin 2026 · Initialement publié le 18 mai 2026

Vous ne pouvez pas apprendre l’apprentissage automatique en lisant — vous l’apprenez en construisant, et construire nécessite des données. La bonne nouvelle est qu’en 2026, une quantité énorme de données gratuites de haute qualité est disponible. Le défi réside dans la difficulté de savoir où chercher. Ce guide recense les 15 meilleurs jeux de données gratuits et sources de jeux de données, classés par type, avec des conseils pour choisir celui qui convient le mieux.

Points clés

Meilleur point de départ : Kaggle et le dépôt UCI d’apprentissage automatique.
Pour les débutants : des jeux de données classiques et petits comme Iris, MNIST et Titanic.
Pour effectuer des recherches : Google Dataset Search et l’index Hugging Face Datasets, qui référencent des millions d’options.
Adaptez le jeu de données à votre objectif — petit et propre pour apprendre, volumineux et désordonné pour s’exercer à la réalité.

Hubs et moteurs de recherche de jeux de données

Ces plateformes hébergent ou indexent un nombre considérable de jeux de données couvrant tous les domaines — le meilleur endroit pour commencer.

1. Jeux de données Kaggle — La plus grande plateforme communautaire de jeux de données. Des dizaines de milliers de jeux de données sur tous les sujets imaginables, dont la plupart sont accompagnés de notebooks d’exemple montrant comment d’autres les ont utilisés. La ressource incontournable pour s’entraîner et trouver des idées de projets.

2. Dépôt UCI d’apprentissage automatique — Une collection académique de longue date. Des centaines de jeux de données bien documentés et propres, parfaits pour apprendre des algorithmes spécifiques. De nombreux jeux de données célèbres destinés aux débutants proviennent de cette source.

3. Google Dataset Search — Un moteur de recherche dédié aux jeux de données disponibles sur l’ensemble du web. Si vous avez un sujet précis en tête, recherchez-le ici pour découvrir des jeux de données que vous n’auriez jamais trouvés autrement.

4. Hugging Face Datasets — Le hub de l’intelligence artificielle moderne, doté d’une vaste bibliothèque de jeux de données — notamment pour le traitement du texte, des langues et des applications multimodales — pouvant être chargés directement dans votre code via une seule commande.

5. Awesome Public Datasets — Une liste importante, soigneusement sélectionnée et maintenue par la communauté sur GitHub, organisée par thème. Un excellent moyen de parcourir des sources de qualité selon le domaine concerné.

Données publiques et gouvernementales

Les institutions publiques publient d’immenses volumes de données gratuites et fiables — idéales pour des projets réalistes.

6. Data.gov — Le portail américain de données ouvertes : des centaines de milliers de jeux de données couvrant l’économie, la santé, le climat, les transports, etc.

7. Données ouvertes de la Banque mondiale — Des données mondiales sur le développement, couvrant de nombreux pays et décennies — économie, population, éducation, environnement. Idéal pour les projets d’analyse et de prévision.

8. Our World in Data — Des jeux de données propres et bien documentés sur des sujets mondiaux tels que la santé, l’énergie et la population, accompagnés d’explications claires.

Jeux de données d’images et de vision par ordinateur

Pour vision par ordinateur projets :

9. ImageNet — Le vaste jeu de données d’images étiquetées qui a contribué à lancer l’ère de l’apprentissage profond. Des millions d’images réparties en milliers de catégories — la référence standard pour la classification d’images.

10. COCO (Common Objects in Context) — Le jeu de données de référence pour la détection et la segmentation d’objets, avec des images étiquetées indiquant les objets qu’elles contiennent ainsi que leur position.

11. MNIST et Fashion-MNIST — Des jeux de données petits et propres d’images de chiffres manuscrits (et d’articles vestimentaires). Le « Hello World » classique de la classification d’images — parfait pour créer votre premier modèle de vision par ordinateur.

Jeux de données textuels et linguistiques

Pour les projets de traitement du langage naturel :

12. Common Crawl — Une vaste archive gratuite de données issues de pages web — le type de texte brut utilisé pour entraîner les grands modèles de langage. Très volumineux et difficile à manipuler, mais inégalé en termes d’échelle.

13. Archives Wikipedia — Le texte intégral de Wikipédia, librement téléchargeable. Un corpus textuel propre et de haute qualité, largement utilisé pour les tâches linguistiques.

14. Jeux de données de sentiments et d’avis — Des collections d’avis sur des produits et des films, étiquetées selon le sentiment exprimé (largement disponibles sur Kaggle et Hugging Face), idéales pour apprendre la classification de textes.

Classiques adaptés aux débutants

15. Iris, Titanic et logements en Californie — Des jeux de données classiques utilisés à des fins pédagogiques. Iris (classification de fleurs) et Logements en Californie (prédiction des prix) sont intégrés à scikit-learn ; Titanic (prédiction de survie) est le célèbre concours d’initiation de Kaggle. Petit, propre et bien documenté — le choix idéal pour votre premier modèle.

Comment choisir le bon jeu de données

Le meilleur jeu de données dépend de votre objectif :

Votre objectif	Choisissez…
Apprendre les bases	Des jeux de données classiques petits et propres — Iris, MNIST, Titanic
S’exercer aux compétences du monde réel	Des jeux de données Kaggle plus volumineux et moins structurés
Un sujet spécifique	Recherche de jeux de données Google
Vision par ordinateur	MNIST → COCO → ImageNet
Traitement du langage naturel	Jeux de données Hugging Face
Un projet destiné à votre portfolio	Un jeu de données portant sur un sujet qui vous intéresse réellement

Quelques conseils pratiques :

Commencez petit et propre. Lors de l’apprentissage, un jeu de données bien structuré vous permet de vous concentrer sur les concepts d’apprentissage automatique. Réservez les jeux de données désordonnés pour les moments où vous pratiquez délibérément le nettoyage des données.
Vérifiez la licence. La plupart des jeux de données présentés ici sont libres d’utilisation, mais si votre projet est public ou commercial, assurez-vous de consulter les conditions d’utilisation.
Choisissez un sujet qui vous intéresse. La motivation compte. Un jeu de données portant sur un thème qui vous passionne vous aidera à persévérer lorsque le projet devient difficile.
Portez attention à la qualité des données et aux biais. Les jeux de données réels contiennent des erreurs et peuvent comporter des biais. Examinez soigneusement vos données avant de faire confiance à un modèle entraîné dessus.

Évaluer un jeu de données avant de lui accorder votre confiance

Trouver un jeu de données est la partie facile. La compétence plus difficile consiste à déterminer s’il résistera réellement une fois que votre modèle aura été entraîné dessus, car les jeux de données gratuits comportent souvent des problèmes cachés qui gonflent discrètement vos résultats ou compromettent un projet à un stade ultérieur. Avant de vous engager, soumettez chaque candidat à quelques vérifications honnêtes.

Lisez d’abord la documentation. Les meilleurs jeux de données sont accompagnés d’une fiche descriptive (« datasheet ») ou d’une « data card », un court document décrivant la manière dont les données ont été collectées, leur contenu, leurs limites connues et leur usage prévu. Ce concept provient de l’article influent de Gebru et al., « Datasheets for Datasets », et Google a par la suite popularisé des versions allégées appelées « Data Cards ». Il n’existe pas de norme industrielle unique, donc la qualité de la documentation varie, mais l’absence totale de description concernant l’origine ou la méthode de collecte constitue un signal d’alerte. Si vous ne savez pas d’où proviennent les données, vous ne pouvez pas anticiper comment elles échoueront.

Vérifiez la fuite entre les ensembles d’entraînement et de test, ainsi que les doublons. Même les benchmarks les plus célèbres ne sont pas exempts d’impuretés. Des audits indépendants ont révélé qu’environ 3 % des images du jeu de test CIFAR-10 et environ 10 % de celles de CIFAR-100 présentent des quasi-doublons dans leurs propres ensembles d’entraînement, ce qui permet à un modèle de « mémoriser » artificiellement ses réponses et d’obtenir un score trompeusement élevé. Si vous effectuez vous-même la séparation d’un jeu de données brut, commencez par supprimer les doublons, et veillez à ce qu’aucune image source, aucun document ou aucun utilisateur ne figure à la fois dans vos ensembles d’entraînement et de test.

Supposez que certaines étiquettes soient erronées. Le bruit sur les étiquettes est la règle, non l’exception. Des chercheurs ont documenté des erreurs d’étiquetage répandues dans de nombreux benchmarks largement utilisés ; ainsi, on estime que l’ensemble de validation ImageNet contient quelques pourcents d’étiquettes incorrectes. Avant de faire confiance à toute précision rapportée, effectuez un contrôle manuel aléatoire sur un échantillon de 50 à 100 exemples.

Deux autres vérifications pratiques viennent compléter cette démarche :

Actualité et équilibre. Assurez-vous que les données sont suffisamment récentes pour votre problème, et examinez la répartition des classes. Un jeu de données composé à 95 % d’une seule catégorie entraînera un modèle qui prédit systématiquement cette catégorie.
Reproductibilité. Privilégiez les jeux de données hébergés sur une plateforme stable et dotés d’une version figée, afin que vos résultats puissent être reproduits et que les données ne changent pas silencieusement sous vos pieds.

Consacrer une heure à ces vérifications au tout début vous fera gagner bien plus de temps que de devoir déboguer ultérieurement un modèle ayant appris de mauvaises choses à partir de données que vous n’avez jamais examinées.

FAQ

Où puis-je trouver des jeux de données gratuits pour l’apprentissage automatique ?

Les meilleures sources de départ sont les jeux de données Kaggle et le dépôt UCI Machine Learning Repository. Pour des recherches plus larges, utilisez Recherche de jeux de données Google et les jeux de données Hugging Face. Les portails gouvernementaux tels que Data.gov et la Banque mondiale offrent également d’énormes quantités de données gratuites et fiables.

Quel est le meilleur jeu de données pour les débutants en apprentissage automatique ?

Des jeux de données classiques, petits et propres : Iris (classification de fleurs) et Logements en Californie (prédiction des prix), tous deux intégrés à scikit-learn, ainsi que le jeu de données Titanic sur Kaggle. Ils sont bien documentés et vous permettent de vous concentrer sur l’apprentissage du flux de travail complet de l’apprentissage automatique.

Kaggle est-il gratuit ?

Oui. Kaggle est entièrement gratuit : vous pouvez télécharger des dizaines de milliers de jeux de données, exécuter du code dans des notebooks cloud gratuits, étudier les solutions d’autres utilisateurs et participer à des concours, le tout sans aucun coût. C’est l’une des meilleures ressources gratuites pour apprendre l’apprentissage automatique.

Quel jeu de données dois-je utiliser pour un projet de vision par ordinateur ?

Commencez par MNIST ou Fashion-MNIST — des jeux de données d’images petits et propres, idéaux pour votre premier modèle de vision par ordinateur. Passez ensuite à COCO pour la détection et la segmentation d’objets, puis à ImageNet pour la classification d’images à grande échelle à mesure que vos compétences progressent.

Puis-je utiliser ces jeux de données dans des projets commerciaux ?

Beaucoup sont disponibles sous licence libre pour toute utilisation, mais les licences varient selon les jeux de données. Vérifiez toujours la licence spécifique et ses conditions avant d’utiliser un jeu de données dans un projet commercial ou publié publiquement — ne partez pas du principe que « gratuit à télécharger » signifie « libre d’utilisation à toute fin ».

Puis-je légalement entraîner un modèle commercial sur un jeu de données gratuit ?

Pas toujours : c’est la licence qui le détermine. Les jeux de données publiés sous licence CC0 (domaine public) constituent le choix le plus sûr pour une utilisation commerciale, tandis que la licence CC-BY autorise l’usage commercial sous réserve d’une attribution. De nombreux jeux de données de recherche populaires, notamment ImageNet, sont strictement réservés à la recherche non commerciale et à l’enseignement. Par ailleurs, il demeure juridiquement ambigu de savoir si un modèle entraîné sur un jeu de données constitue une « œuvre dérivée », aussi lisez attentivement chaque licence et, pour tout projet destiné à être mis sur le marché, privilégiez les jeux de données dotés de conditions commerciales claires et permissives.

Comment trouver un bon jeu de données tabulaire ou au format CSV pour un projet débutant ?

Commencez par les moteurs et hubs de recherche de jeux de données, puis filtrez par type de fichier (CSV) et par nombre de lignes (petit à moyen), afin que le fichier s’ouvre facilement dans un tableur ou avec pandas. Recherchez des jeux de données disposant d’une description claire des colonnes, d’un nombre raisonnable de caractéristiques et d’une colonne cible bien définie à prédire. Des jeux de données tabulaires propres et bien documentés constituent l’option idéale pour apprendre les algorithmes classiques avant de passer aux images ou au texte.

Comment vérifier un jeu de données pour détecter des erreurs d’étiquetage avant de l’utiliser ?

Prélève un échantillon aléatoire de 50 à 100 lignes et vérifiez manuellement les étiquettes par rapport aux entrées brutes. Pour les jeux de données volumineux ou constitués d’images, des outils fondés sur la confiance (« confidence-learning »), tels que cleanlab, peuvent identifier automatiquement les exemples probablement mal étiquetés en comparant chaque étiquette aux probabilités prédites par un modèle. Même une simple vérification manuelle rapide vous indiquera si le niveau de bruit est suffisamment faible pour que vous puissiez faire confiance à vos métriques d’évaluation.

Conclusion

Jamais autant de données gratuites et de haute qualité n’ont été aussi accessibles pour l’apprentissage automatique qu’en 2026. Pour vous entraîner et réaliser des projets, commencez par Kaggle et le le dépôt UCI; pour trouver quelque chose de précis, utilisez Recherche de jeux de données Google et Hugging Face. Si vous débutez, les jeux de données classiques et petits — Iris, MNIST, Titanic — restent le meilleur point de départ pour maîtriser le flux de travail.

Le conseil le plus simple est le suivant : cessez d’accumuler des jeux de données et commencez à en utiliser un. Choisissez un sujet qui vous intéresse, récupérez les données correspondantes et construisez un modèle. La pratique concrète avec des données réelles transforme la théorie de l’apprentissage automatique en compétence réelle.