Bien préparer ses données avant analyse

Améliorez la préparation des données et facilitez l’analyse de vos résultats

Il est souvent nécessaire de transformer des données pour pouvoir les analyser. La préparation des données est donc une étape stratégique cruciale pour une analyse des résultats précise et fiable. StatBox propose des méthodes spécifiques qui vous permettront d’optimiser la préparation des données qui serviront de base aux analyses.

  • Contrôle de la qualité des données : obtenir rapidement un ensemble d’indicateurs sur le type de données disponibles, le nombre de manquants, la dispersion,…
  • Codages en classes : transformer une variable quantitative en classes de valeurs, c’est-à-dire  en une variable ordinale.  Ce module, très complet, autorise toutes les définitions de classes possibles et plusieurs modes de discrétisation sont proposés.
  • Regroupement de modalités : coder ou recoder les modalités d’une variable qualitative.
  • Codage disjonctif complet  : coder un tableau avec les observations en lignes et des variables qualitatives en colonnes sous la forme d’un tableau binaire.
  • Codage de variables numériques en rang : coder en rangs un tableau avec les observations en lignes et les variables en colonnes.
  • Codages de variables textes en codes :  coder des variables textes en tableau de codes correspondant à l’ordre  alphabétique des textes.
  • Transformation : transformer une variable quantitative continue au moyen d’une fonction analytique.
  • Calcul matriciel et vectoriel : effectuer les opérations de base sur des matrices et des vecteurs.
  • Echantillonnage aléatoire : extraire un sous-ensemble d’observations du tableau initial par un tirage au hasard.
  • Echantillonnage par quotas : introduire une contrainte en plus par rapport à l’échantillonnage aléatoire.
  • Redressement : attribuer à chaque observation un poids destiné à contrebalancer l’effet de la  surreprésentation ou de la sous-représentation de certains groupes dans l’échantillon, lorsque la structure d’un échantillon ne correspond pas à la structure de la population mère.
  • Création d’une distribution : générer des données aléatoires à partir d’une distribution théorique. Vous devez choisir la loi de probabilité (uniforme, gaussienne, lognormale, de Student, de Fisher, binominale,…) et fixer ses paramètres. Vous pouvez également éditer des données vérifiant l’appartenance à une distribution empirique.