當前位置:成語大全網 - 書法字典 - 每個數據科學家都應該知道的七種回歸技術。

每個數據科學家都應該知道的七種回歸技術。

線性回歸和邏輯回歸通常是人們在數據科學中學習的第壹個算法。由於它們的受歡迎程度,許多分析師甚至認為它們是唯壹的回歸形式。任何有壹點工作經驗的人都會認為它們是所有形式的回歸分析中最重要的。

事實是有無數種形式的回歸可以使用。每種形式的回歸都有其自身的重要性和最適合應用的特定場景。在本文中,我將深入淺出地解釋數據科學中最常用的七種回歸形式。通過這篇文章,我也希望人們能夠對回歸的廣度有壹個概念,而不僅僅是對他們遇到的每個問題進行線性/邏輯回歸,並希望他們能夠使用這麽多回歸技術!

如果妳是數據科學的新手,正在尋找壹個開始學習的地方,那麽課程“數據科學”是壹個很好的起點!它涵蓋了Python、統計和預測建模的核心主題,是您邁出數據科學第壹步的最佳方式。

什麽是回歸分析?

回歸分析是壹種預測建模技術,研究依賴關系(目標)和自變量(預測變量)之間的關系。這項技術用於預測、時間序列建模和尋找變量之間的因果關系。例如,魯莽駕駛與駕駛員道路交通事故數量之間的關系可以通過回歸法進行最佳研究。

回歸分析是建模和分析數據的重要工具。這裏,我們將曲線/直線擬合到數據點,以最小化數據點與曲線或直線之間的距離差。我將在下壹章詳細解釋這壹點。

我們為什麽要使用回歸分析?

如上所述,回歸分析是為了估計兩個或多個變量之間的關系。讓我們通過壹個簡單的例子來理解這壹點:

例如,您想根據當前的經濟形勢估計公司的銷售增長率。妳有最新的公司數據顯示銷售增長約為經濟增長的2.5倍。有了這種洞察力,我們可以根據當前和過去的信息預測公司未來的銷售額。

使用回歸分析有許多優點。如下所示:

它顯示了因變量和自變量之間的顯著關系。它表示多個自變量對壹個因變量的影響強度。

回歸分析還允許我們比較在不同尺度上測量的變量的影響,例如價格變化和促銷活動數量的影響。這些優勢有助於市場研究人員/數據分析師/數據科學家消除和評估用於構建預測模型的最佳變量集。

我們有多少種回歸技術?

我們有各種各樣的回歸技術可以用於預測。這些技術主要由三個指標驅動(自變量的數量、因變量的類型和回歸線的形狀)。我們將在下面的部分中詳細討論它們。

對於創造力,如果您覺得有必要使用上述參數的組合,您甚至可以進行新的回歸,這是人們以前從未使用過的。但是在我們開始之前,讓我們了解壹下最常用的回歸方法:

1.線性回歸

這是最廣為人知的建模技術之壹。線性回歸通常是人們在學習預測建模時首先選擇的方法之壹。在這種方法中,因變量是連續的,自變量可以是連續的或離散的,回歸線的性質是線性的。

線性回歸使用最佳擬合直線(也稱為回歸線)在因變量(y)和壹個或多個自變量(x)之間建立關系。

它由公式Y = a+b * X+e表示,其中a是截距,b是直線的斜率,e是誤差項。這個方程可以根據給定的預測變量預測目標變量的值。

簡單線性回歸和多元線性回歸的區別在於多元線性回歸有(》:1)個自變量,而簡單線性回歸只有1個自變量。現在的問題是“我們如何獲得最佳擬合線?”。

如何獲得最佳擬合線(a和b的值)?

這項任務可以通過最小二乘法輕松完成。這是擬合回歸線最常用的方法。它通過最小化每個數據點到直線的垂直偏差平方和來計算觀測數據的最佳擬合線。因為偏差應該首先被平方,所以當相加時,正值和負值之間沒有抵消。

我們可以使用指標的R平方來評估模型性能。

要點:自變量和因變量之間必須存在線性關系。多元回歸存在多重線性、自相關和異方差等問題。線性回歸對異常值非常敏感。它會極大地影響回歸線並最終影響預測值。多重* * *線性會增加系數估計的方差,並使估計對模型中的微小變化非常敏感。結果是系數估計不穩定。在多個自變量的情況下,我們可以選擇向前選擇、向後消除和逐步方法來選擇最重要的自變量。2.邏輯回歸

邏輯回歸方法用於找出成功的概率和失敗的概率。當因變量本質上是二元的(0/1,真/假,是/否)時,我們應該使用邏輯回歸。這裏,y的值的範圍是從0到1,可以由下面的等式表示。

賠率= p/(1-p)=事件發生概率/非事件發生概率ln(賠率)= ln(p/(1-p)logit(p)= ln(p/(1-p))= B0+b 6544。

上圖中,p是有趣特征出現的概率。這時,妳應該問壹個問題:“為什麽我們在方程中使用對數log?”。

由於我們在這裏使用二項分布(因變量),因此我們需要選擇最適合該分布的鏈接函數。此外,它是壹個logit函數。在上面的方程中,選擇該參數是為了最大化觀察樣本值的可能性,而不是最小化誤差平方和(如在普通回歸中)。

要點:它廣泛用於分類問題的邏輯回歸中,不依賴於因變量和自變量之間的線性關系。它可以處理各種關系,因為它具有將非線性對數變換應用於預測的優點。為了避免過度擬合和欠擬合,我們應該包括所有重要的變量。確保這種做法的壹個好方法是使用逐步方法來估計邏輯回歸,這需要大樣本量,因為當樣本量小時,最大似然估計的效率低於普通最小二乘法。獨立變量不應相關,也就是說,它們不具有多重* * *線性。但是,我們可以選擇在分析和模型中包括分類變量的相互作用。如果因變量的值是序數,則稱為序數邏輯回歸;如果因變量是多類的,則稱為多元邏輯回歸。3.多項式回歸

如果自變量的冪大於1,則回歸方程是多項式回歸方程。下面的方程表示壹個多項式方程:

Y = A + B * X ^ 2

在這種回歸技術中,最佳擬合線不是直線。這是壹條與數據點重合的曲線。

重點:盡管可能有擬合高階多項式以獲得較低誤差的誘惑,但這可能會導致過度擬合。總是畫壹張圖來看看它是否匹配,並專註於確保曲線符合問題的本質。下面是壹個繪畫如何幫助的例子:特別註意末端的曲線,看看這些形狀和趨勢是否有意義。更高的多項式最終會產生奇怪的結果。4.逐步回歸

當我們處理多個獨立變量時,會用到這種形式的回歸。在該技術中,自變量的選擇是在自動化過程的幫助下完成的,不需要人工幹預。

通過觀察統計值(如R平方、T檢驗和AIC指數)來識別重要變量,可以實現這壹壯舉。逐步回歸基本上適用於回歸模型,根據指定的標準壹次添加/刪除壹個協變量。以下是壹些最常用的逐步回歸方法:

標準逐漸回歸做兩件事。它根據每壹步的需要添加和刪除預測變量。正向選擇從模型中最重要的預測變量開始,並為每壹步添加變量。向後消除從模型中的所有預測變量開始,並在每壹步中刪除最不重要的變量。

這種建模技術的目的是用最少的預測變量最大限度地提高預測能力。它是處理更高維數據集的方法之壹。

5.裏脊回歸

嶺回歸是壹種在數據具有多重線性(獨立變量高度相關)時使用的技術。在多重線性中,即使最小二乘估計(OLS)是無偏的,它們的方差也很大,這使得觀察值偏離真實值。嶺回歸可以通過在回歸估計中增加壹定程度的偏差來減少標準誤差。

上面,我們看到了線性回歸的方程。記得嗎?它可以表示為:

y = a + b * x

這個方程也有壹個誤差項。完整的等式變成:

Y = a+b * x+e(誤差項),【誤差項是校正觀測值和預測值之間的預測誤差所需的值】表示多個自變量,=》;y = a + y = a + b1x1 + b2x2 +....+ e。

在線性方程中,預測誤差可以分解成兩個子分量。首先是因為偏差,其次是因為方差。由於這兩個或兩個組件中的任何壹個,可能會出現預測錯誤。這裏,我們將討論方差引起的誤差。

嶺回歸通過縮小參數λ(λ)來解決多重* * *線性問題。看下面的等式。

在這個等式中,我們有兩個分量。第壹個是最小二乘項,另壹個是β2之和的λ(β的平方),其中β是系數。這被添加到最小二乘項中,以縮小參數範圍,使其具有非常低的方差。

關鍵點:這種回歸的假設與最小二乘回歸的假設相同,但它會在不假設正態性的情況下降低系數的值,但它不會達到零,這表明沒有特征選擇函數。這是壹種正則化方法,使用l2正則化。6.套索回歸

與嶺回歸類似,Lasso(最小絕對收縮和選擇算子)也限制了回歸系數的絕對大小。此外,它還可以減少線性回歸模型的可變性並提高其準確性。請看下面的等式:

套索回歸和嶺回歸的區別在於它在罰函數中使用絕對值而不是平方。這導致罰值(或等價地約束估計值的絕對值之和),這導致某些參數的估計值正好為零。應用的懲罰越大,估計值就越接近絕對零。這導致從給定的n個變量中選擇變量。

要點:回歸假設與最小二乘回歸相同,但它不假設正態性。它將系數降低到零(確切地說是零),這對於特征選擇無疑是有幫助的。這是壹個正則化方法和正則化與l1。如果預測變量高度相關,Lasso只選擇其中壹個,並將其他預測減少到零。7.彈性網絡回歸。

彈性網絡回歸是套索回歸和嶺回歸技術的混合。它使用L1和L2先驗作為訓練的正則項。當存在多個相關要素時,彈性網絡非常有用。套索可以隨機選擇壹個,而彈性網可以同時選擇兩個。

平衡套索回歸和嶺回歸的壹個實際優勢是它允許彈性網絡在旋轉下繼承嶺回歸的壹些穩定性。

要點:當變量高度相關時,會促進群體效應。選擇的變量數量沒有限制,並且會受到雙收縮的影響。如何選擇正確的回歸模型?

當妳只知道壹兩項技能時,生活通常很簡單。我知道的壹個培訓機構告訴他們的學生——如果結果是連續的——使用線性回歸。如果是二進制的-那麽使用邏輯回歸!然而,我們可以使用的選項越多,就越難選擇正確的選項。回歸模型也會出現類似的情況。

在眾多類型的回歸模型中,根據自變量和因變量的類型、數據中的維度以及數據的其他基本特征選擇最合適的回歸方法非常重要。以下是選擇正確回歸模型的關鍵因素:

數據挖掘是建立預測模型不可避免的壹部分。在選擇正確的模型之前,我們應該首先確定變量之間的相關系數和影響。為了比較不同模型的擬合優度,我們可以分析不同的指標,如參數的統計顯著性、R平方、調整R平方、AIC指數、BIC指數和誤差項。另壹個是Mallow的Cp標準。這基本上是通過將模型與所有可能的子模型進行比較(仔細選擇它們)來檢查模型中可能存在的偏差。交叉驗證是評估用於預測的模型的最佳方式。這裏,數據集可以分為兩組(訓練和驗證)。觀察值和預測值之間的簡單均方差可以衡量預測的準確性。如果您的數據集有多個混雜變量,則不應選擇自動模型選擇方法,因為您不想同時將它們放入模型中。這也取決於妳的目標。與統計顯著性高的模型相比,功能弱的模型更容易實現。當數據集中的變量具有高維度和多重線性時,回歸正則化方法(Lasso回歸、嶺回歸和彈性網絡回歸)效果很好。結束語

到現在為止,我希望妳已經了解了壹些關於返回的知識。這些回歸技術的應用考慮到了數據條件。找出使用哪種技術的最佳技術之壹是檢查變量族,即離散變量或連續變量。

在本文中,我討論了七種類型的回歸以及與每種技術相關的壹些關鍵事實。作為這個行業的新人,我建議妳學習這些技術,然後在妳的模型中實現它們。

-以上是作者推薦的七個回歸模型。如果妳對這七款車型感興趣,不妨親自嘗試壹下。光知道理論是不夠的。只有多做實驗,才能真正掌握這些模型。

妳應該知道的7種回歸技術!