Une panoplie complète d’outils d’analyse statistique

Explorez vos données en toute simplicité

StatBox propose un ensemble d’outils statistiques complet qui répond à tous vos besoins d’analyses de données, des plus simples aux plus avancées. Complètement intégré à Excel, StatBox allie simplicité d’utilisation, puissance et performance pour vous fournir des méthodes d’analyses précises et éprouvées.

Vous sélectionnez les données et les paramètres pour chaque analyse, choisissez les fonctions statistiques et méthodes appropriées, l’outil organise les résultats et graphiques dans un même feuillet. Un sommaire cliquable vous aide à retrouver vos résultats rapidement. Des assistants vous guident dans toutes les étapes de vos analyses pour simplifier et accélérer vos tâches.

StatBox vous permet d’analyser vos données sur une, deux ou n variables :

Analyses univariées

  • Tri à plat
  • Statistiques descriptives
  • Histogrammes
  • Prévision à court terme
  • Ajustement d’une loi de probabilité

 

Les analyses univariées avec StatBox

La technique univariée s’attache à l’analyse d’une variable. StatBox propose les méthodes suivantes :

  • Tri à plat

Ce module permet de faire un comptage des modalités d’une variable qualitative. Les effectifs et les pourcentages apparaissent dans un tableau de résultats. Des histogrammes et des graphiques en secteurs peuvent être ajoutés aux résultats.

  • Statistiques descriptives 

Utilisez ce module pour calculer un ensemble de statistiques descriptives pour une ou plusieurs variables quantitatives, et produire des représentations graphiques ou semi-graphiques utilisées en analyse exploratoire des données.

Liste des statistiques calculées :


Densité Natalité Mortalité
Nbr de valeurs utilisées 745,000 745,000 745,000
Nbr de valeurs ignorées 0,000 0,000 0,000
Nbr de val. min. 1,000 1,000 1,000
% de val. min. 0,134 0,134 0,134
Minimum 0,073 0,000 0,000
1er quartile 0,359 8,841 5,248
Médiane 0,589 11,200 7,096
3ème quartile 1,145 13,925 9,302
Maximum 59,788 27,541 158,046
Étendue 59,716 27,541 158,046
Somme 1379,426 8504,600 5992,410
Moyenne 1,852 11,416 8,044
Moyenne géométrique 0,714
Moyenne harmonique 0,469
Aplatissement (Pearson) 49,938 0,602 247,943
Asymétrie (Pearson) 6,564 0,411 13,306
Aplatissement (Fisher) 6,590 0,413 13,359
Asymétrie (Fisher) 6,590 0,413 13,359
CV (écart-type / moyenne) 2,883 0,336 0.910
Variance d’échantillon 28,450 14,717 53,549
Variance estimée 28,488 14,737 53,621
Ecart-type échantillon 5,334 3,839 7,323
Ecart absolu moyen 2,111 3,003 3,043
Ecart-type de la moyenne 0,196 0,141 0,268

  • Graphiques produits :
    • graphiques « boîte à moustaches » ou box plots,
    • nuages de points univariés ou scattergrams,
    • diagrammes « tige et feuille » ou stem and leaf plots.
  • Histogrammes

Utilisez ce module pour afficher l’histogramme des fréquences approximant la fonction de densité de probabilité d’une variable quantitative et la distribution des fréquences cumulées approximant sa fonction de répartition.

Le module permet également de produire des histogrammes, en utilisant différentes méthodes, et de modifier les bornes manuellement.

  • Prévision à court terme

Prolongez les tendances du passé pour estimer les évolutions d’un phénomène ou de votre activité dans les mois à venir.

  • Ajustement d’une loi de probabilité

Utilisez ce module pour ajuster une loi de probabilité à vos données quantitatives, continues ou discrètes, et vérifier la qualité de l’ajustement effectué.

Plusieurs lois de probabilité  sont disponibles : uniforme, gaussienne, lognormale, de Student, de Fisher, du khi², Bêta, exponentielle, de Poisson, binomiale, binomiale négative.

StatBox  offre la possibilité de saisir directement les valeurs des paramètres de la loi de probabilité choisie, ou de les estimer automatiquement.  Afin de juger la qualité de l’ajustement, StatBox affiche les valeurs de l’espérance, de la variance, des coefficients d’asymétrie et d‟aplatissement, estimées d’après les données, et les valeurs calculées pour la loi de probabilité sélectionnée, compte tenu de ses paramètres (saisis ou estimés). Un accord entre les deux jeux de valeurs constitue un premier élément d‟appréciation de l‟accord entre la distribution des valeurs et le modèle ajusté.

Analyses bivariées

  • Deux variables qualitatives : Tris croisés
  • Tableaux de moyennes
  • Matrice de similarité / dissimilarité (corrélations)
  • Nuages de points
  • Graphiques avec libellés

 

Les analyse bivariées avec StatBox

Les techniques bivariées permettent de mesurer la qualité du lien qui existe entre deux variables quantitatives ou qualitatives.

StatBox offre les méthodes d’analyses suivantes :

  • Tris croisés

Utilisez ce module pour calculer le tableau de contingence (ou tableau croisé) pour deux ensembles de variables qualitatives, ainsi que des tableaux dérivés, et tester l’association entre les lignes et  les colonnes.

  • Tableaux de moyennes

Utilisez ce module pour calculer des statistiques descriptives sur un ensemble de variables quantitatives en les croisant avec les modalités d’une variable qualitative.

  • Matrice de similarité / dissimilarité (corrélations)

Utilisez ce module pour calculer une matrice de similarité ou de dissimilarité pour un tableau rectangulaire, en croisant les lignes ou les colonnes, et tester l’hypothèse d‟absence de structure de corrélation dans le cas d’une matrice de corrélation paramétrique (corrélation de Pearson) grâce au test  de sphéricité de Bartlett.

  • Nuages de points

Utilisez ce module pour calculer un ensemble de statistiques descriptives  pour une ou plusieurs variables quantitatives et produire des représentations graphiques en analyse exploratoire des données.

  • Graphiques produits :
    • collection de nuages de points bivariés XY
    • graphiques « Quantile-Quantile » ou Q-Q plots
    • graphiques « probabilité- probabilité » ou p-p plots
  • Graphiques avec libellés

Utilisez ce module pour représenter simultanément 2 variables quantitatives sous la forme d’un nuage de points bivarié et une variable qualitative ou de « groupe »  permettant de corréler chacune des observations selon leur appartenance à tel ou tel groupe. Les observations sont identifiées sur le graphique par leur libellé.

Analyse multivariées

  • Analyse en Composantes Principales (ACP)
  • Analyse Factorielle des Correspondances (AFC)
  • Analyse des Correspondances Multiples (ACM)
  • Analyse Factorielle Discriminante (AFD)
  • Régression multiple
  • Régression logistique
  • Régression PLS
  • Régression neuronale
  • Multidimensional Scaling (MDS)
  • Classification par partitionnement (k-means)
  • Classification Ascendante Hiérarchique (CAH)
  • Arbre de Segmentation
  • Anova (Modèle linéaire général)

 

Les analyse multivariées avec StatBox

La technique multivariée couvre un ensemble de méthodes destinées à regrouper l’information issue de plusieurs variables, Dans le but de trouver les proximités entre ces variables mais aussi de déterminer les critères qui contribuent le mieux à « expliquer » les différences entre ces variables.

Il existe deux grandes catégories de méthodes : les méthodes descriptives et les méthodes explicatives :

Méthodes descriptives

  • Analyse en Composantes Principales (ACP)

Utilisez l’analyse en composantes principales pour résumer la structure de données décrites par plusieurs variables quantitatives, tout en obtenant des facteurs non corrélés entre eux. Ces facteurs peuvent être utilisés comme de nouvelles variables permettant :

  • d’éviter la multicolinéarité en régression multiple ou en analyse factorielle discriminante,
  • d’effectuer une classification automatique en ne tenant compte que de l‟information essentielle, c‟est-à-dire en ne conservant que les premiers facteurs.

Ce module accepte jusqu’à 250 variables.

  • Analyse Factorielle des Correspondances (AFC)

Utilisez l’analyse factorielle des correspondances afin d‟étudier la liaison entre deux ensembles de modalités constituant les lignes et les colonnes d’un tableau de contingence.

  • Analyse des Correspondances Multiples (ACM)

Utilisez l’analyse des correspondances multiples afin d‟étudier des données sous la forme d‟un tableau d‟observations décrits par plusieurs variables qualitatives. Cette méthode est particulièrement adaptée à l’analyse d‟enquêtes pour lesquelles les lignes du tableau sont en général des individus (il peut en exister plusieurs milliers) et les colonnes sont des modalités de variables qualitatives, le plus souvent des modalités de réponse à des questions.

  • Classification par partitionnement (k-means)

Utilisez la méthode des K-means (ou méthode des centres mobiles) pour partitionner des observations en classes homogènes, sur la base de leur description par un ensemble de variables quantitatives.

La méthode utilisée par StatBox garantit qu’aucune classe ne peut se vider complètement de ses observations.

  • Classification Ascendante Hiérarchique (CAH)

Utilisez la classification ascendante hiérarchique pour constituer des groupes d’observations similaires (classes) sur la base de leur description par un ensemble de variables quantitatives, ou éventuellement de tous types. La CAH produit un arbre binaire de classification (dendrogramme), dont la racine correspond à la classe regroupant l’ensemble des  observations.

Il existe de nombreuses mesures de ressemblances (similarités ou dissimilarités), et plusieurs méthodes pour recalculer la ressemblance lorsque l’algorithme forme des groupes (critères d’agrégations). StatBox propose des indices et des critères sélectionnés en fonction de leurs propriétés mathématiques et de leur intérêt pratique ou pédagogique.

StatBox propose plusieurs similarités/dissimilarités qui sont adaptées à un type de données particulier.


Similarité Dissimilarité
Corrélation de Pearson
Corrélation de Spearman
Corrélation de Kendall
Distance euclidienne
Distance du khi2
Distance de Manhattan
Dissimilarité de Pearson
Dissimilarité de Spearman
Dissimilarité de Kendall

  • Multidimensional Scaling (MDS)

Utilisez le multidimensional scaling (ou positionnement multidimensionnel) pour représenter dans un espace de faible dimension des  observations  pour lesquels seule une matrice de similarité ou de dissimilarité est disponible. Le MDS a pour objectif de modéliser les proximités entre les observations de façon à pouvoir les représenter le plus fidèlement possible dans un espace de faible dimension (généralement 2 dimensions).

StatBox utilise l’algorithme SMACOF (Scaling by MAjorizing a COnvex Function).

Méthodes explicatives

  • Régression multiple

Le programme de régression multiple permet d’expliquer la variation d’une variable en fonction de plusieurs autres. Les variables à expliquer et les variables explicatives doivent être de nature numérique.

  • Régression logistique

Dans la régression logistique la variable à expliquer prend les valeurs 0 ou 1, absence ou présence, vrai ou faux etc. La régression logistique utilise la méthode du maximum de vraisemblance pour estimer les coefficients de régression

  • Régression PLS (Partial least squares)

Cette méthode permet de visualiser les liaisons linéaires entre 2 tableaux de variables quantitatives X et Y décrivant les mêmes observations. La régression PLS cherche à trouver dans X les grands axes qui expliquent le mieux Y.

La régression PLS permet de s‟affranchir des limites de la régression multiple :

  • les variables explicatives du groupe X peuvent être très corrélées entre elles,
  • le nombre d‟observations peut être inférieur au nombre de variables explicatives,
  • la régression PLS permet d‟isoler le bruit dans le modèle,
  • elle accepte plusieurs variables Y à expliquer.
  • Régression neuronale

La régression neuronale va vous permettre de prédire la valeur d‟une variable numérique en fonction de plusieurs autres.

Les réseaux de neurones permettent d’effectuer des analyses multivariées et de compléter un certain nombre de méthodes statistiques classiques comme :

  • l’Analyse en Composantes Principales,
  • la Régression Multiple,
  • l’Analyse Factorielle Discriminante
  • la Classification.

Avec StatBox vous pouvez utiliser les méthodes neuronales et comparer les résultats obtenus avec les méthodes statistiques d’analyse des données. L’intérêt des réseaux de neurones est d’aller plus loin que les méthodes classiques. En particulier grâce à leur algorithme de traitement non-linéaire. En revanche les réseaux de neurones ne fournissent pas les résultats habituels (coefficients de régression, test de significativité, etc.)

  • Arbres de Segmentation

La segmentation, au sens large, consiste à créer des groupes d’observations homogènes. On peut tout simplement créer des sous-populations à partir de quelques variables pour constituer ces groupes. StatBox permet de faire intervenir un ensemble complexe de variables. StatBox propose 2 méthodes méthodes pour créer ces groupes ; la méthode CHAID et la méthode CART.

  • Analyse Factorielle Discriminante (AFD)

Utilisez l’analyse factorielle  discriminante pour classer de  nouvelles  observations  décrites par plusieurs variables quantitatives, connaissant un échantillon  d’observations décrits par les mêmes variables, dont les groupes sont connus, et pour analyser la façon dont les variables descriptives contribuent à la constitution des différents groupes.

Ce module accepte jusqu’à 250 variables explicatives.

  • Anova (Modèle linéaire général)

La variable à analyser est continue et la ou les variables explicatives sont nominales. Il est possible d’ajouter des variables explicatives continues : les co-variables. Ce module de StatBox permet de traiter un grand nombre de plans d’expériences :

  • de 1 à n facteurs
  • les différentes interactions d‟ordre 2 et 3
  • mesures répétées
  • les plans déséquilibrés comportant un nombre différents d‟observations par cellule