Menu
Gratuitement
Inscription
maison  /  Sol/ Analyse de régression, types de dépendances. L'analyse de régression est une méthode statistique pour étudier la dépendance d'une variable aléatoire à l'égard des variables

Types d'analyse de régression des dépendances. L'analyse de régression est une méthode statistique pour étudier la dépendance d'une variable aléatoire à l'égard des variables

La méthode d'analyse de régression est utilisée pour déterminer les paramètres techniques et économiques des produits appartenant à une série paramétrique spécifique afin de construire et d'aligner des relations de valeur. Cette méthode permet d'analyser et de justifier le niveau et les ratios de prix des produits caractérisés par la présence d'un ou plusieurs paramètres techniques et économiques reflétant les principales propriétés du consommateur. L'analyse de régression nous permet de trouver une formule empirique qui décrit la dépendance du prix aux paramètres techniques et économiques des produits :

P=f(X1X2,...,Xn),

où P est la valeur du prix unitaire du produit, frotter.; (X1, X2, ... Xn) - paramètres techniques et économiques des produits.

La méthode d'analyse de régression - la plus avancée des méthodes normatives-paramétriques utilisées - est efficace pour effectuer des calculs basés sur l'utilisation de technologies et de systèmes d'information modernes. Son application comprend les principales étapes suivantes :

  • détermination de la classification des groupes paramétriques de produits ;
  • sélection des paramètres qui influencent le plus le prix du produit ;
  • sélection et justification de la forme de lien entre les changements de prix lorsque les paramètres changent ;
  • construction d'un système d'équations normales et calcul de coefficients de régression.

Le principal groupe de qualification de produits, dont le prix est soumis à péréquation, est une série paramétrique, au sein de laquelle les produits peuvent être regroupés en différentes conceptions en fonction de leur application, de leurs conditions et exigences de fonctionnement, etc. Lors de la formation de séries paramétriques, des méthodes de classification automatiques peuvent être utilisés, qui permettent de distinguer des groupes homogènes de la masse totale des produits. La sélection des paramètres techniques et économiques est effectuée sur la base des exigences de base suivantes :

  • les paramètres sélectionnés comprennent des paramètres enregistrés dans les normes et spécifications techniques ; en plus des paramètres techniques (puissance, capacité de charge, vitesse, etc.), des indicateurs de sérialisation des produits, de coefficients de complexité, d'unification, etc. sont utilisés ;
  • l'ensemble des paramètres sélectionnés doit caractériser de manière suffisamment complète les propriétés de conception, technologiques et opérationnelles des produits inclus dans la série, et avoir une corrélation assez étroite avec le prix ;
  • les paramètres ne doivent pas être interdépendants.

Pour sélectionner les paramètres techniques et économiques qui affectent de manière significative le prix, une matrice de coefficients de corrélation par paires est calculée. Sur la base de l'ampleur des coefficients de corrélation entre les paramètres, on peut juger de l'étroitesse de leur connexion. Dans le même temps, une corrélation proche de zéro montre une influence insignifiante du paramètre sur le prix. La sélection finale des paramètres techniques et économiques est effectuée au cours d'une analyse de régression étape par étape utilisant la technologie informatique et des programmes standard appropriés.

Dans la pratique de tarification, l'ensemble de fonctions suivant est utilisé :

linéaire

P = ao + alXl + ... + fourmiXn,

puissance linéaire

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logarithme inverse

P = a0 + a1 : Dans X1 + ... + an : Dans Xn,

pouvoir

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indicatif

P = e^(a1+a1X1+...+anXn)

hyperbolique

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

où P est la péréquation des prix ; X1 X2,..., Xn - la valeur des paramètres techniques et économiques des produits de la série ; a0, a1 ..., an - coefficients calculés de l'équation de régression.

Dans les travaux pratiques sur la tarification, selon la forme de relation entre les prix et les paramètres techniques et économiques, d'autres équations de régression peuvent être utilisées. Le type de fonction de connexion entre le prix et un ensemble de paramètres techniques et économiques peut être prédéfini ou sélectionné automatiquement lors du traitement informatique. L'étroitesse de la corrélation entre le prix et l'ensemble de paramètres est évaluée par la valeur du coefficient de corrélation multiple. Sa proximité avec l’un indique un lien étroit. À l'aide de l'équation de régression, des valeurs de prix égalisées (calculées) pour les produits d'une série paramétrique donnée sont obtenues. Pour évaluer les résultats de la péréquation, les valeurs relatives de l'écart des valeurs de prix calculées par rapport aux valeurs réelles sont calculées :

Tsr = Rf - Rr : R x 100

où Рф, Рр - prix réels et calculés.

La valeur de CR ne doit pas dépasser 8 à 10 %. En cas d'écarts significatifs des valeurs calculées par rapport aux valeurs réelles, il est nécessaire d'enquêter :

  • l'exactitude de la formation d'une série paramétrique, car elle peut contenir des produits qui, dans leurs paramètres, diffèrent fortement des autres produits de la série. Ils doivent être exclus ;
  • sélection correcte des paramètres techniques et économiques. Un ensemble de paramètres faiblement corrélés au prix est possible. Dans ce cas, il est nécessaire de poursuivre la recherche et la sélection des paramètres.

La procédure et la méthodologie pour effectuer une analyse de régression, trouver des paramètres inconnus de l'équation et évaluer économiquement les résultats obtenus sont effectuées conformément aux exigences des statistiques mathématiques.

S'il existe une corrélation entre les facteurs et les caractéristiques de performance, les médecins doivent souvent établir dans quelle mesure la valeur d'une caractéristique peut changer lorsque l'autre passe à une unité de mesure généralement acceptée ou établie par le chercheur lui-même.

Par exemple, comment le poids corporel des écoliers de 1re année (filles ou garçons) évoluera-t-il si leur taille augmente de 1 cm ? À ces fins, la méthode d'analyse de régression est utilisée.

Le plus souvent, la méthode d'analyse de régression est utilisée pour élaborer des échelles normatives et des normes de développement physique.

  1. Définition de la régression. La régression est une fonction qui permet, à partir de la valeur moyenne d'une caractéristique, de déterminer la valeur moyenne d'une autre caractéristique corrélée à la première.

    À cette fin, le coefficient de régression et un certain nombre d'autres paramètres sont utilisés. Par exemple, vous pouvez calculer le nombre de rhumes en moyenne à certaines valeurs de la température mensuelle moyenne de l'air pendant la période automne-hiver.

  2. Détermination du coefficient de régression. Le coefficient de régression est la valeur absolue par laquelle, en moyenne, la valeur d'une caractéristique change lorsqu'une autre caractéristique associée change d'une unité de mesure spécifiée.
  3. Formule du coefficient de régression. R y/x = r xy x (σ y / σ x)
    où R у/х - coefficient de régression ;
    r xy - coefficient de corrélation entre les caractéristiques x et y ;
    (σ y et σ x) - écarts types des caractéristiques x et y.

    Dans notre exemple ;
    σ x = 4,6 (écart type de la température de l'air en période automne-hiver ;
    σ y = 8,65 (écart type du nombre de maladies infectieuses et du rhume).
    Ainsi, R y/x est le coefficient de régression.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, soit lorsque la température mensuelle moyenne de l'air (x) diminue de 1 degré, le nombre moyen de maladies infectieuses et froides (y) pendant la période automne-hiver changera de 1,8 cas.

  4. Équation de régression. y = M y + R y/x (x - M x)
    où y est la valeur moyenne de la caractéristique, qui doit être déterminée lorsque la valeur moyenne d'une autre caractéristique change (x) ;
    x est la valeur moyenne connue d'une autre caractéristique ;
    R y/x - coefficient de régression ;
    M x, M y - valeurs moyennes connues des caractéristiques x et y.

    Par exemple, le nombre moyen de maladies infectieuses et froides (y) peut être déterminé sans mesures spéciales à n'importe quelle valeur moyenne de la température mensuelle moyenne de l'air (x). Ainsi, si x = - 9°, R y/x = 1,8 maladies, M x = -7°, M y = 20 maladies, alors y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 maladies.
    Cette équation est appliquée dans le cas d'une relation linéaire entre deux caractéristiques (x et y).

  5. Objectif de l'équation de régression. L'équation de régression est utilisée pour construire une droite de régression. Ce dernier permet, sans mesures particulières, de déterminer toute valeur moyenne (y) d'une caractéristique si la valeur (x) d'une autre caractéristique change. Sur la base de ces données, un graphique est construit - ligne de régression, qui peut être utilisé pour déterminer le nombre moyen de rhumes à n'importe quelle valeur de la température mensuelle moyenne dans la plage comprise entre les valeurs calculées du nombre de rhumes.
  6. Régression Sigma (formule).
    où σ Rу/х - sigma (écart type) de régression ;
    σ y - écart type de la caractéristique y ;
    r xy - coefficient de corrélation entre les caractéristiques x et y.

    Donc, si σ y - écart type du nombre de rhumes = 8,65 ; r xy - le coefficient de corrélation entre le nombre de rhumes (y) et la température mensuelle moyenne de l'air pendant la période automne-hiver (x) est égal à - 0,96, alors

  7. Affectation de sigma de régression. Donne une description de la mesure de diversité de la caractéristique résultante (y).

    Par exemple, il caractérise la diversité du nombre de rhumes à une certaine valeur de la température mensuelle moyenne de l'air en période automne-hiver. Ainsi, le nombre moyen de rhumes à température de l'air x 1 = -6° peut varier de 15,78 maladies à 20,62 maladies.
    A x 2 = -9°, le nombre moyen de rhumes peut varier de 21,18 maladies à 26,02 maladies, etc.

    Le sigma de régression est utilisé pour construire une échelle de régression, qui reflète l'écart des valeurs de la caractéristique résultante par rapport à sa valeur moyenne tracée sur la droite de régression.

  8. Données requises pour calculer et tracer l'échelle de régression
    • coefficient de régression - R у/х ;
    • équation de régression - y = M y + R y/x (x-M x) ;
    • sigma de régression - σ Rx/y
  9. Séquence de calculs et représentation graphique de l'échelle de régression.
    • déterminer le coefficient de régression à l'aide de la formule (voir paragraphe 3). Par exemple, il est nécessaire de déterminer combien de poids corporel changera en moyenne (à un certain âge selon le sexe) si la taille moyenne change de 1 cm.
    • à l'aide de la formule de l'équation de régression (voir point 4), déterminez quel sera, par exemple, le poids corporel en moyenne (y, y 2, y 3 ...) * pour une certaine valeur de taille (x, x 2, x 3 . ..) .
      ________________
      * La valeur de « y » doit être calculée pour au moins trois valeurs connues de « x ».

      Dans le même temps, les valeurs moyennes du poids corporel et de la taille (M x et M y) pour un certain âge et sexe sont connues

    • calculer le sigma de régression, connaissant les valeurs correspondantes de σ y et r xy et en substituant leurs valeurs dans la formule (voir paragraphe 6).
    • sur la base des valeurs connues x 1, x 2, x 3 et des valeurs moyennes correspondantes y 1, y 2 y 3, ainsi que la plus petite (y - σ rу/х) et la plus grande (y + σ rу /х) les valeurs (y) construisent une échelle de régression.

      Pour représenter graphiquement l'échelle de régression, les valeurs x, x2, x3 (axe des ordonnées) sont d'abord marquées sur le graphique, c'est-à-dire une droite de régression est construite, par exemple, la dépendance du poids corporel (y) sur la taille (x).

      Puis, aux points correspondants 1, y 2, y 3, les valeurs numériques du sigma de régression sont notées, c'est-à-dire sur le graphique, trouvez les valeurs les plus petites et les plus grandes de 1, y 2, y 3.

  10. Utilisation pratique de l'échelle de régression. Des échelles et standards normatifs sont en cours d’élaboration, notamment pour le développement physique. À l'aide d'une échelle standard, vous pouvez donner une évaluation individuelle du développement des enfants. Dans ce cas, le développement physique est jugé harmonieux si, par exemple, à une certaine taille, le poids corporel de l'enfant se situe à un sigma de régression vers l'unité moyenne calculée de poids corporel - (y) pour une taille donnée (x) ( y ± 1 σ Ry/x).

    Le développement physique est considéré comme disharmonieux en termes de poids corporel si le poids corporel de l’enfant pour une certaine taille se situe dans le deuxième sigma de régression : (y ± 2 σ Ry/x)

    Le développement physique sera fortement disharmonieux en raison à la fois d'un poids corporel excessif et insuffisant si le poids corporel pour une certaine taille se situe dans le troisième sigma de régression (y ± 3 σ Ry/x).

D'après les résultats d'une étude statistique sur le développement physique des garçons de 5 ans, on sait que leur taille moyenne (x) est de 109 cm et leur poids corporel moyen (y) est de 19 kg. Le coefficient de corrélation entre la taille et le poids corporel est de +0,9, les écarts types sont présentés dans le tableau.

Requis:

  • calculer le coefficient de régression ;
  • à l'aide de l'équation de régression, déterminez quel sera le poids corporel attendu des garçons de 5 ans ayant une taille égale à x1 = 100 cm, x2 = 110 cm, x3 = 120 cm ;
  • calculer le sigma de régression, construire une échelle de régression et présenter graphiquement les résultats de sa solution ;
  • tirer les conclusions appropriées.

Les conditions du problème et les résultats de sa solution sont présentés dans le tableau récapitulatif.

Tableau 1

Conditions du problème Résultats de la résolution du problème
équation de régression sigma de régression échelle de régression (poids corporel attendu (en kg))
M σ r xy Ry/x X U σR x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Hauteur (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Masse corporelle (y) 19kg ± 0,8kg 110cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76kg 20,41kg 21,11 kg

Solution.

Conclusion. Ainsi, l'échelle de régression dans les limites des valeurs calculées du poids corporel permet de le déterminer à toute autre valeur de taille ou d'évaluer le développement individuel de l'enfant. Pour ce faire, restaurez la perpendiculaire à la droite de régression.

  1. Vlassov V.V. Épidémiologie. - M. : GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyne Yu.P. Santé publique et soins de santé. Manuel pour les universités. - M. : GEOTAR-MED, 2007. - 512 p.
  3. Medic V.A., Yuryev V.K. Cours magistral sur la santé publique et les soins de santé : Partie 1. Santé publique. - M. : Médecine, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. et autres Médecine sociale et organisation des soins (Manuel en 2 volumes). - Saint-Pétersbourg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. et autres Hygiène sociale et organisation des soins de santé (Tutoriel) - Moscou, 2000. - 432 p.
  6. S. Glanz. Statistiques médicales et biologiques. Traduction de l’anglais - M., Praktika, 1998. - 459 p.

En modélisation statistique, l'analyse de régression est une étude utilisée pour évaluer la relation entre les variables. Cette méthode mathématique comprend de nombreuses autres méthodes de modélisation et d'analyse de plusieurs variables, l'accent étant mis sur la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Plus précisément, l'analyse de régression nous aide à comprendre comment la valeur typique d'une variable dépendante change si l'une des variables indépendantes change tandis que les autres variables indépendantes restent fixes.

Dans tous les cas, l’estimation cible est fonction des variables indépendantes et est appelée fonction de régression. Dans l'analyse de régression, il est également intéressant de caractériser l'évolution de la variable dépendante en fonction de la régression, qui peut être décrite à l'aide d'une distribution de probabilité.

Problèmes d'analyse de régression

Cette méthode de recherche statistique est largement utilisée pour la prévision, où son utilisation présente un avantage significatif, mais elle peut parfois conduire à des illusions ou à de fausses relations, il est donc recommandé de l'utiliser avec précaution dans ce domaine, car, par exemple, corrélation ne signifie pas causalité.

Un grand nombre de méthodes ont été développées pour l'analyse de régression, telles que la régression linéaire et la régression des moindres carrés ordinaires, qui sont paramétriques. Leur essence est que la fonction de régression est définie en termes d'un nombre fini de paramètres inconnus estimés à partir des données. La régression non paramétrique permet à sa fonction de se situer dans un ensemble spécifique de fonctions, qui peuvent être de dimension infinie.

En tant que méthode de recherche statistique, l'analyse de régression dépend en pratique de la forme du processus de génération de données et de son lien avec l'approche de régression. Étant donné que la véritable forme du processus de génération de données est généralement un nombre inconnu, l'analyse de régression des données dépend souvent dans une certaine mesure d'hypothèses concernant le processus. Ces hypothèses peuvent parfois être testées si suffisamment de données sont disponibles. Les modèles de régression sont souvent utiles même lorsque les hypothèses sont modérément violées, même s'ils peuvent ne pas fonctionner avec une efficacité maximale.

Dans un sens plus étroit, la régression peut faire spécifiquement référence à l'estimation de variables à réponse continue, par opposition aux variables à réponse discrète utilisées dans la classification. Le cas des variables de sortie continues est également appelé régression métrique pour le distinguer des problèmes connexes.

Histoire

La première forme de régression est la méthode bien connue des moindres carrés. Elle a été publiée par Legendre en 1805 et Gauss en 1809. Legendre et Gauss ont appliqué la méthode au problème de la détermination à partir d'observations astronomiques des orbites des corps autour du Soleil (principalement des comètes, mais plus tard aussi des planètes mineures nouvellement découvertes). Gauss a publié un développement ultérieur de la théorie des moindres carrés en 1821, y compris une version du théorème de Gauss-Markov.

Le terme « régression » a été inventé par Francis Galton au XIXe siècle pour décrire un phénomène biologique. L’idée était que la taille des descendants par rapport à celle de leurs ancêtres avait tendance à régresser vers le bas vers la moyenne normale. Pour Galton, la régression n’avait qu’une signification biologique, mais plus tard ses travaux furent poursuivis par Udney Yoley et Karl Pearson et replacés dans un contexte statistique plus général. Dans les travaux de Yule et Pearson, la distribution conjointe des variables de réponse et des variables explicatives est supposée être gaussienne. Cette hypothèse a été rejetée par Fischer dans des articles de 1922 et 1925. Fisher a suggéré que la distribution conditionnelle de la variable de réponse est gaussienne, mais que la distribution conjointe ne l'est pas nécessairement. À cet égard, la proposition de Fischer est plus proche de la formulation de Gauss de 1821. Avant 1970, il fallait parfois jusqu'à 24 heures pour obtenir le résultat d'une analyse de régression.

Les méthodes d'analyse de régression continuent d'être un domaine de recherche actif. Au cours des dernières décennies, de nouvelles méthodes ont été développées pour une régression robuste ; régressions impliquant des réponses corrélées ; des méthodes de régression qui prennent en compte différents types de données manquantes ; régression non paramétrique ; Méthodes de régression bayésienne ; les régressions dans lesquelles les variables prédictives sont mesurées avec erreur ; régression avec plus de prédicteurs que d'observations et inférence de cause à effet avec régression.

Modèles de régression

Les modèles d'analyse de régression incluent les variables suivantes :

  • Paramètres inconnus, appelés bêta, qui peuvent être un scalaire ou un vecteur.
  • Variables indépendantes, X.
  • Variables dépendantes, Y.

Différents domaines scientifiques où l'analyse de régression est utilisée utilisent des termes différents à la place de variables dépendantes et indépendantes, mais dans tous les cas, le modèle de régression relie Y à une fonction de X et β.

L'approximation s'écrit généralement sous la forme E(Y | X) = F(X, β). Pour effectuer une analyse de régression, le type de fonction f doit être déterminé. Plus rarement, elle repose sur la connaissance de la relation entre Y et X, qui ne repose pas sur des données. Si de telles connaissances ne sont pas disponibles, alors la forme flexible ou pratique F est choisie.

Variable dépendante Y

Supposons maintenant que le vecteur de paramètres inconnus β soit de longueur k. Pour effectuer une analyse de régression, l'utilisateur doit fournir des informations sur la variable dépendante Y :

  • Si N points de données de la forme (Y, X) sont observés, où N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Si exactement N = K sont observés et que la fonction F est linéaire, alors l'équation Y = F(X, β) peut être résolue exactement plutôt qu'approximativement. Cela revient à résoudre un ensemble de N-équations à N-inconnues (éléments β) qui ont une solution unique tant que X est linéairement indépendant. Si F est non linéaire, il se peut qu’il n’y ait pas de solution, ou que de nombreuses solutions puissent exister.
  • La situation la plus courante est celle où N > points de données sont observés. Dans ce cas, les données contiennent suffisamment d’informations pour estimer une valeur unique pour β qui correspond le mieux aux données, ainsi qu’un modèle de régression dans lequel l’application aux données peut être considérée comme un système surdéterminé dans β.

Dans ce dernier cas, l’analyse de régression fournit des outils pour :

  • Trouver une solution pour les paramètres inconnus β, qui permettra, par exemple, de minimiser la distance entre la valeur mesurée et prédite de Y.
  • Sous certaines hypothèses statistiques, l'analyse de régression utilise des informations excédentaires pour fournir des informations statistiques sur les paramètres inconnus β et les valeurs prédites de la variable dépendante Y.

Nombre requis de mesures indépendantes

Considérons un modèle de régression qui a trois paramètres inconnus : β 0 , β 1 et β 2 . Supposons que l'expérimentateur effectue 10 mesures sur la même valeur du vecteur variable indépendante X. Dans ce cas, l'analyse de régression ne produit pas un ensemble unique de valeurs. Le mieux que vous puissiez faire est d'estimer la moyenne et l'écart type de la variable dépendante Y. De même, en mesurant deux valeurs différentes de X, vous pouvez obtenir suffisamment de données pour une régression avec deux inconnues, mais pas avec trois inconnues ou plus.

Si les mesures de l'expérimentateur ont été effectuées à trois valeurs différentes du vecteur variable indépendant X, alors l'analyse de régression fournira un ensemble unique d'estimations pour les trois paramètres inconnus dans β.

Dans le cas d'une régression linéaire générale, l'énoncé ci-dessus équivaut à l'exigence selon laquelle la matrice X T X est inversible.

Hypothèses statistiques

Lorsque le nombre de mesures N est supérieur au nombre de paramètres inconnus k et aux erreurs de mesure ε i , alors, en règle générale, l'excès d'informations contenu dans les mesures est alors diffusé et utilisé pour des prédictions statistiques sur les paramètres inconnus. Cet excès d’information est appelé degré de liberté de régression.

Hypothèses fondamentales

Les hypothèses classiques pour l’analyse de régression comprennent :

  • L'échantillonnage est représentatif de la prédiction par inférence.
  • Le terme d’erreur est une variable aléatoire avec une moyenne de zéro, qui dépend des variables explicatives.
  • Les variables indépendantes sont mesurées sans erreurs.
  • En tant que variables indépendantes (prédicteurs), elles sont linéairement indépendantes, c’est-à-dire qu’il n’est pas possible d’exprimer un prédicteur sous la forme d’une combinaison linéaire des autres.
  • Les erreurs ne sont pas corrélées, c'est-à-dire que la matrice de covariance d'erreur des diagonales et chaque élément non nul est la variance d'erreur.
  • La variance d'erreur est constante d'une observation à l'autre (homoscédasticité). Dans le cas contraire, les moindres carrés pondérés ou d’autres méthodes peuvent être utilisées.

Ces conditions suffisantes pour l'estimation par les moindres carrés ont les propriétés requises ; en particulier, ces hypothèses signifient que les estimations des paramètres seront objectives, cohérentes et efficaces, surtout lorsqu'elles sont prises en compte dans la classe des estimateurs linéaires. Il est important de noter que les preuves satisfont rarement aux conditions. Autrement dit, la méthode est utilisée même si les hypothèses ne sont pas correctes. Les écarts par rapport aux hypothèses peuvent parfois être utilisés pour mesurer l’utilité du modèle. Beaucoup de ces hypothèses peuvent être assouplies grâce à des méthodes plus avancées. Les rapports d'analyse statistique incluent généralement l'analyse de tests sur des échantillons de données et la méthodologie pour l'utilité du modèle.

De plus, les variables font dans certains cas référence à des valeurs mesurées à des emplacements ponctuels. Il peut y avoir des tendances spatiales et des autocorrélations spatiales dans les variables qui violent les hypothèses statistiques. La régression géographique pondérée est la seule méthode qui traite de telles données.

Une caractéristique de la régression linéaire est que la variable dépendante, qui est Yi, est une combinaison linéaire de paramètres. Par exemple, la régression linéaire simple utilise une variable indépendante, x i , et deux paramètres, β 0 et β 1 , pour modéliser n points.

Dans la régression linéaire multiple, il existe plusieurs variables indépendantes ou fonctions de celles-ci.

Lorsqu'un échantillon aléatoire est prélevé dans une population, ses paramètres permettent d'obtenir un modèle de régression linéaire par échantillon.

Dans cet aspect, la méthode la plus populaire est la méthode des moindres carrés. Il est utilisé pour obtenir des estimations de paramètres qui minimisent la somme des carrés des résidus. Ce type de minimisation (typique de la régression linéaire) de cette fonction conduit à un ensemble d'équations normales et à un ensemble d'équations linéaires avec paramètres, qui sont résolues pour obtenir des estimations de paramètres.

En supposant en outre que l'erreur de population se propage généralement, un chercheur peut utiliser ces estimations d'erreur standard pour créer des intervalles de confiance et effectuer des tests d'hypothèse sur ses paramètres.

Analyse de régression non linéaire

Un exemple où la fonction n'est pas linéaire par rapport aux paramètres indique que la somme des carrés doit être minimisée à l'aide d'une procédure itérative. Cela introduit de nombreuses complications qui définissent les différences entre les méthodes des moindres carrés linéaires et non linéaires. Par conséquent, les résultats de l'analyse de régression lors de l'utilisation d'une méthode non linéaire sont parfois imprévisibles.

Calcul de la puissance et de la taille de l'échantillon

Il n'existe généralement pas de méthodes cohérentes concernant le nombre d'observations par rapport au nombre de variables indépendantes dans le modèle. La première règle a été proposée par Dobra et Hardin et ressemble à N = t^n, où N est la taille de l'échantillon, n est le nombre de variables indépendantes et t est le nombre d'observations nécessaires pour obtenir la précision souhaitée si le modèle avait une seule variable indépendante. Par exemple, un chercheur construit un modèle de régression linéaire à l’aide d’un ensemble de données contenant 1 000 patients (N). Si le chercheur décide que cinq observations sont nécessaires pour définir avec précision la ligne (m), alors le nombre maximum de variables indépendantes que le modèle peut prendre en charge est de 4.

Autres méthodes

Bien que les paramètres du modèle de régression soient généralement estimés à l’aide de la méthode des moindres carrés, d’autres méthodes sont utilisées beaucoup moins fréquemment. Par exemple, ce sont les méthodes suivantes :

  • Méthodes bayésiennes (par exemple, régression linéaire bayésienne).
  • Régression en pourcentage, utilisée dans les situations où la réduction du pourcentage d'erreurs est considérée comme plus appropriée.
  • Les plus petits écarts absolus, plus robustes en présence de valeurs aberrantes conduisant à une régression quantile.
  • Régression non paramétrique, qui nécessite un grand nombre d'observations et de calculs.
  • Une métrique d'apprentissage à distance qui est apprise pour trouver une métrique de distance significative dans un espace d'entrée donné.

Logiciel

Tous les principaux logiciels statistiques effectuent une analyse de régression par les moindres carrés. La régression linéaire simple et l'analyse de régression multiple peuvent être utilisées dans certaines applications de feuilles de calcul ainsi que dans certaines calculatrices. Bien que de nombreux logiciels statistiques puissent effectuer divers types de régression non paramétrique et robuste, ces méthodes sont moins standardisées ; différents progiciels implémentent différentes méthodes. Un logiciel de régression spécialisé a été développé pour être utilisé dans des domaines tels que l'analyse des examens et la neuroimagerie.

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de X, et des changements dans oui sont causés précisément par des changements dans X, on peut déterminer la droite de régression (régression oui sur X), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Ligne de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

X appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur X, c'est à dire. est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig. 1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente X pour une unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Fig. 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La méthode la plus simple pour déterminer les coefficients un Et b est méthode des moindres carrés(MNC).

L'ajustement est évalué en examinant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à l’extrémité de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une valeur particulière en insérant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur standard pour estimer un intervalle de confiance pour la vraie moyenne de la population.

Répéter cette procédure pour différentes valeurs permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

et l'équation de régression utilisant P pour X1 est

Y = b0 + b1P

Si un plan de régression simple contient un effet d'ordre supérieur sur P, tel qu'un effet quadratique, alors les valeurs de la colonne X1 de la matrice de plan seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles vivant sous le seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté conduise à l’émigration, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Voir les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param. le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle générale est que les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p<.001 .

Conclusion

Cet exemple montre comment analyser un plan de régression simple. Des interprétations de coefficients de régression non standardisés et standardisés ont également été présentées. L'importance d'étudier la distribution des réponses d'une variable dépendante est discutée et une technique permettant de déterminer la direction et la force de la relation entre un prédicteur et une variable dépendante est démontrée.

A) Analyse graphique de la régression linéaire simple.

Équation de régression linéaire simple y=a+bx. S'il existe une corrélation entre les variables aléatoires Y et X, alors la valeur y = ý + ,

où ý est la valeur théorique de y obtenue à partir de l'équation ý = f(x),

 – erreur d'écart de l'équation théorique ý par rapport aux données réelles (expérimentales).

L'équation de dépendance de la valeur moyenne ý sur x, c'est-à-dire ý = f(x), est appelée équation de régression. L'analyse de régression comprend quatre étapes :

1) définir le problème et établir les raisons de la connexion.

2) limitation de l'objet de recherche, collecte d'informations statistiques.

3) sélection de l'équation de couplage en fonction de l'analyse et de la nature des données collectées.

4) calcul de valeurs numériques, caractéristiques des connexions de corrélation.

Si deux variables sont liées de telle manière qu'un changement dans une variable correspond à un changement systématique dans l'autre variable, alors l'analyse de régression est utilisée pour estimer et sélectionner l'équation pour la relation entre elles si ces variables sont connues. Contrairement à l'analyse de régression, l'analyse de corrélation est utilisée pour analyser l'étroitesse de la relation entre X et Y.

Considérons trouver une ligne droite dans l'analyse de régression :

Équation de régression théorique.

Le terme « régression simple » indique que la valeur d'une variable est estimée sur la base de la connaissance d'une autre variable. Contrairement à la simple régression multivariée, elle est utilisée pour estimer une variable sur la base de la connaissance de deux, trois variables ou plus. Regardons l'analyse graphique de la régression linéaire simple.

Supposons qu'il existe des résultats de tests de dépistage sur le pré-emploi et la productivité du travail.

Résultats de la sélection (100 points), x

Productivité (20 points), oui

En traçant les points sur un graphique, on obtient un diagramme de dispersion (champ). Nous l'utilisons pour analyser les résultats des tests de sélection et la productivité du travail.

Analysons la droite de régression à l'aide du nuage de points. Dans l'analyse de régression, au moins deux variables sont toujours spécifiées. Un changement systématique dans une variable est associé à un changement dans une autre. objectif principal analyse de régression consiste à estimer la valeur d’une variable si la valeur d’une autre variable est connue. Pour une tâche complète, l'évaluation de la productivité du travail est importante.

Variable indépendante dans l’analyse de régression, quantité utilisée comme base pour analyser une autre variable. Dans ce cas, il s'agit des résultats de tests de sélection (selon l'axe X).

Variable dépendante est appelée la valeur estimée (le long de l'axe Y). Dans l'analyse de régression, il ne peut y avoir qu'une seule variable dépendante et plusieurs variables indépendantes.

Pour une analyse de régression simple, la dépendance peut être représentée dans un système à deux coordonnées (x et y), l'axe X étant la variable indépendante et l'axe Y étant la variable dépendante. Nous traçons les points d'intersection de manière à ce qu'une paire de valeurs soit représentée sur le graphique. L'horaire s'appelle nuage de points. Sa construction est la deuxième étape de l'analyse de régression, puisque la première est la sélection des valeurs analysées et la collecte d'échantillons de données. Ainsi, l'analyse de régression est utilisée pour l'analyse statistique. La relation entre les exemples de données dans un graphique est linéaire.

Pour estimer l'ampleur d'une variable y en fonction d'une variable x, il est nécessaire de déterminer la position de la ligne qui représente le mieux la relation entre x et y en fonction de l'emplacement des points sur le nuage de points. Dans notre exemple, il s’agit d’une analyse des performances. Ligne tracée à travers les points de diffusion – ligne de régression. Une façon de construire une droite de régression basée sur l’expérience visuelle est la méthode à main levée. Notre droite de régression peut être utilisée pour déterminer la productivité du travail. Lors de la recherche de l'équation de la droite de régression

Le test des moindres carrés est souvent utilisé. La droite la plus adaptée est celle où la somme des carrés des écarts est minimale

L'équation mathématique d'une droite de croissance représente la loi de la croissance dans une progression arithmétique :

à = UNbX.

Oui = UN + bX– l'équation donnée avec un paramètre est le type d'équation de couplage le plus simple. C'est acceptable pour des valeurs moyennes. Pour exprimer plus précisément la relation entre X Et à, un coefficient de proportionnalité supplémentaire est introduit b, qui indique la pente de la droite de régression.

B) Construction d'une droite de régression théorique.

Le processus pour la trouver consiste à choisir et justifier le type de courbe et à calculer les paramètres UN, b, Avec etc. Le processus de construction s'appelle le nivellement et la fourniture des courbes offertes par le tapis. analyse, variée. Le plus souvent, dans les problèmes économiques, on utilise une famille de courbes, des équations exprimées par des polynômes de puissances entières positives.

1)
– équation d'une droite,

2)
– équation d'hyperbole,

3)
– équation d'une parabole,

où ý sont les ordonnées de la droite de régression théorique.

Après avoir choisi le type d'équation, vous devez trouver les paramètres dont dépend cette équation. Par exemple, la nature de la localisation des points dans le champ de diffusion a montré que la droite de régression théorique est droite.

Un nuage de points vous permet de représenter la productivité du travail à l'aide d'une analyse de régression. En économie, l'analyse de régression est utilisée pour prédire de nombreuses caractéristiques qui affectent le produit final (en tenant compte du prix).

B) Le critère des plus petits repères pour trouver une droite.

Un critère que nous pourrions appliquer pour une droite de régression appropriée dans un nuage de points est basé sur le choix de la droite pour laquelle la somme des erreurs quadratiques est minimale.

La proximité des points de diffusion par rapport à la droite est mesurée par les ordonnées des segments. Les écarts de ces points peuvent être positifs et négatifs, mais la somme des carrés des écarts de la droite théorique par rapport à la droite expérimentale est toujours positive et doit être minime. Le fait que tous les points de diffusion ne coïncident pas avec la position de la droite de régression indique l'existence d'un écart entre les données expérimentales et théoriques. Ainsi, nous pouvons dire qu'aucune autre droite de régression, à l'exception de celle trouvée, ne peut donner un plus petit nombre d'écarts entre les données expérimentales et expérimentales. Par conséquent, après avoir trouvé l’équation théorique ý et la droite de régression, nous satisfaisons à l’exigence des moindres carrés.

Cela se fait en utilisant l'équation de couplage
utiliser des formules pour trouver des paramètres UN Et b. Prendre la valeur théorique
et désignant le côté gauche de l'équation par F, on obtient la fonction
à partir de paramètres inconnus UN Et b. Valeurs UN Et b satisfera la fonction minimale F et sont trouvés à partir d'équations aux dérivées partielles
Et
. Ce condition nécessaire, cependant, pour une fonction quadratique positive, c'est aussi une condition suffisante pour trouver UN Et b.

Dérivons les formules de paramètres des équations aux dérivées partielles UN Et b:



on obtient un système d'équations :


– les erreurs de moyenne arithmétique.

En remplaçant les valeurs numériques, nous trouvons les paramètres UN Et b.

Il y a une notion
. C'est le facteur d'approximation.

Si e < 33%, то модель приемлема для дальнейшего анализа;

Si e> 33%, on prend alors une hyperbole, une parabole, etc. Cela donne droit à une analyse dans diverses situations.

Conclusion : selon le critère du coefficient d'approximation, la droite la plus adaptée est celle pour laquelle

, et aucune autre droite de régression pour notre problème ne donne un écart minimum.

D) Erreur quadratique d'estimation, en vérifiant leur typicité.

Par rapport à une population dans laquelle le nombre de paramètres de recherche est inférieur à 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Test de Student. Ceci calcule la valeur réelle t-critères:

D'ici

– erreur quadratique moyenne résiduelle. Reçu t un Et t b par rapport à la critique t k du tableau de Student en tenant compte du niveau de signification accepté ( = 0,01 = 99 % ou  = 0,05 = 95 %). P. = F = k 1 = m– nombre de paramètres de l'équation étudiée (degré de liberté). Par exemple, si oui = un + bx; m = 2, k 2 = F 2 = p 2 = n – (m+ 1), où n– nombre de caractéristiques étudiées.

t un < t k < t b .

Conclusion: en utilisant les paramètres de l'équation de régression testée pour la typicité, un modèle mathématique de communication est construit
. Dans ce cas, les paramètres de la fonction mathématique utilisée dans l'analyse (linéaire, hyperbole, parabole) reçoivent les valeurs quantitatives correspondantes. Le contenu sémantique des modèles ainsi obtenus est qu'ils caractérisent la valeur moyenne de la caractéristique résultante
du signe du facteur X.

D) Régression curviligne.

Très souvent, une relation curviligne se produit lorsqu'une relation changeante est établie entre des variables. L'intensité de l'augmentation (diminution) dépend du niveau de X. Il existe différents types de dépendance curviligne. Par exemple, considérons la relation entre le rendement des cultures et les précipitations. Avec une augmentation des précipitations à conditions naturelles égales, il y a une augmentation intensive du rendement, mais jusqu'à une certaine limite. Passé le point critique, les précipitations s’avèrent excessives et les rendements chutent de façon catastrophique. L’exemple montre qu’au début la relation était positive puis négative. Le point critique est le niveau optimal de l’attribut X, qui correspond à la valeur maximale ou minimale de l’attribut Y.

En économie, une telle relation est observée entre prix et consommation, productivité et expérience.

Dépendance parabolique.

Si les données montrent qu'une augmentation d'une caractéristique factorielle entraîne une augmentation de la caractéristique résultante, alors une équation du second ordre (parabole) est considérée comme une équation de régression.

. Les coefficients a,b,c sont trouvés à partir d'équations aux dérivées partielles :

On obtient un système d'équations :

Types d'équations curvilignes :

,

,

Nous avons le droit de supposer qu’il existe une relation curviligne entre la productivité du travail et les résultats aux tests de sélection. Cela signifie qu'à mesure que le système de notation augmente, les performances commenceront à diminuer à un certain niveau, de sorte que le modèle droit peut s'avérer curviligne.

Le troisième modèle sera une hyperbole, et dans toutes les équations la variable x sera remplacée par l'expression .