banner
Centre d'Information
Une collaboration productive créera un résultat souhaitable.

4 types de techniques d'échantillonnage aléatoire expliquées

Aug 23, 2023

« Pourquoi devrais-je me soucier de l'échantillonnage aléatoire ? »

Voici pourquoi : si vous êtes un scientifique des données et que vous souhaitez développer des modèles, vous avez besoin de données. Et si vous avez besoin de données, quelqu'un doit collecter ces données. Et si quelqu'un collecte des données, il doit s'assurer qu'elles ne sont pas biaisées, sinon cela coûtera extrêmement cherà long terme.

Par conséquent, si vous souhaitez collecter des informations impartialesdonnées, alors vous devez connaître l'échantillonnage aléatoire.

Plus de Terence Shin10 Concepts SQL avancés que vous devez connaître pour les entretiens en science des données

L'échantillonnage aléatoire décrit simplement un état dans lequel chaque élément d'une population a une chance égale d'être choisi pour l'échantillon. Cela semble simple, non ? Eh bien, c'est beaucoup plus facile à dire qu'à faire car vous devez tenir compte de beaucoup de logistique afin de minimiser les biais. Ces quatre types de techniques d'échantillonnage aléatoire vous permettront de faire exactement cela.

L'échantillonnage aléatoire simple nécessite l'utilisation de nombres générés aléatoirement pour choisir un échantillon. Plus précisément, il nécessite initialement une base de sondage, qui est une liste ou une base de données de tous les membres d'une population. Vous pouvez ensuite générer aléatoirement un nombre pour chaque élément, en utilisant Excel par exemple, et prendre le premier nombre n d'échantillons dont vous avez besoin.

Pour donner un exemple, imaginez que le tableau de droite était votre cadre d'échantillonnage. À l'aide d'un logiciel comme Excel, vous pouvez ensuite générer des nombres aléatoires pour chaque élément du cadre d'échantillonnage. Si vous avez besoin d'un échantillon de trois, vous devez prendre les échantillons avec les nombres aléatoires de un à trois.

L'échantillonnage aléatoire stratifié consiste à diviser une population en groupes ayant des attributs similaires et à échantillonner au hasard chaque groupe.

Cette méthode garantit que les différents segments d'une population sont également représentés. Pour donner un exemple, imaginons qu'une enquête soit menée dans une école pour déterminer la satisfaction globale. Ici, l'échantillonnage aléatoire stratifié peut également représenter les opinions des étudiants dans chaque département.

L'échantillonnage en grappes commence par diviser une population en groupes ou en grappes. Ce qui le différencie de l'échantillonnage stratifié, c'est que chaque grappe doit être représentative de l'ensemble de la population. Ensuite, vous sélectionnez au hasard des grappes entières à échantillonner.

Par exemple, si une école avait cinq classes différentes de huitième année, l'échantillonnage aléatoire par grappes signifie que n'importe quelle classe servirait d'échantillon.

Échantillonnage aléatoire systématique est une technique courante dans laquelle vous échantillonnez chaque kème élément. Par exemple, si vous meniez des sondages dans un centre commercial, vous pourriez sonder chaque 100e personne qui entre.

Si vous disposez d'un cadre d'échantillonnage, vous devez alors diviser la taille du cadre, N, par la taille d'échantillon souhaitée, n, pour obtenir le numéro d'index, k. Vous choisirez ensuite chaque kième élément du cadre pour créer votre échantillon.

En utilisant les mêmes graphiques du premier exemple, si nous voulions une taille d'échantillon de deux cette fois, nous prendrions une ligne sur trois dans le cadre d'échantillonnage.

Plus dans Data ScienceComment créer un moteur de recherche avec Python et Laravel

Vous devriez maintenant comprendre ce qu'est l'échantillonnage aléatoire et plusieurs techniques courantes pour le réaliser. La maîtrise de ce concept est extrêmement importante pour minimiser les biais et créer de meilleurs modèles.