交叉驗證

對統計,機器學習,數據分析,數據挖掘和數據可視化感興趣的人員進行問答


2
皮爾遜相關係數明顯大於斯皮爾曼等級相關係數的解釋是什麼?
獲得皮爾遜相關係數值比斯皮爾曼等級相關係數值(同一個值)大得多(約2倍)的解釋是什麼?數據)?這與將Spearman等級相關係數(即排名數據的 Pearson相關係數)視為的概括不矛盾。> Pearson的單調依賴評估,而不是線性依賴...
    

12
插補次數和最大迭代次數如何影響多重插補的準確性?
MICE的幫助頁面將功能定義為:mice(data, m = 5, method = vector( character , length = ncol(data)), predictorMatrix = (1 - diag(1, ncol(data))), visitSequence = (1:ncol(data))[apply(is.na(data), 2, any)], form = vector( character , length = ncol(data)), post = vector( character , lengt...
     

5
骰子擲骰統計測試初學者問題
我有2個10,000人的群組。我給同類群組1中的每個人$ a $,讓他們滾動。我將這些值記錄為一個計數。然後,我與同類群組2重複此過程,讓他們喪命$ b $。我現在有一個看起來像這樣的表:同類群組1:1 = 500、2 = 1500、3 = 5000、4 = 2000...
    

4
大多數陰性測試示例的估計SVM概率太低嗎?
我正在使用LIBSVM(以及Matlab的fitcsvm和fitSVMPosterior)來訓練SVM模型並獲得概率估計。我注意到,絕大多數負面測試示例的估計概率太低(例如<0.01)。我不知道該怎麼解釋?一個可以解釋的事實是,有充分的理由相信一些負面的...
     

1
給定訓練集大小時,如何選擇測試集大小?
我有在醫療環境中收集的關於64位受試者的數據。借助ROC曲線分析和自舉,我確定了該組中兩個疾病(存在或不存在)的預測因子。我現在想在新數據集上測試我的模型,但是收集新數據既耗時又昂貴。如何確定測試集的大小?...
    

0
多班,每班分類一個火車樣本
我有一個分類任務,每個班級有一個火車樣本,大約有300個班級,此外每個觀測站都有大約200個特徵。誰能建議一種可能比最近的鄰居更好的方法?...
   

1
精度和召回率之間的差異
如果您為入侵檢測系統(IDS)開發了兩個分類器以檢測網絡中的蠕蟲,則第一個分類器的精度和召回率分別為90%和40%,第二個分別為60%和80%,哪個分類更好?...
  

13
深度卷積神經網絡有哪些有用的數據增強技術?
背景:我最近在更深層次上了解了在seeing this excellent talk by Geoffrey Hinton之後訓練卷積神經網絡時數據增強的重要性。他解釋說,當代的捲積神經網絡無法概括被測物體的參照系,這使得網絡很難真正地理解物體的鏡像是相同的...
  

7
為什麼因子分析模型中的回歸係數稱為"負荷"?
在this線程中@ttnphns寫道 Because it is regression coefficients [...] I insist that it is better to say factor loads variable than variable loads factor . 我從here獲悉,因子分析模型是方程組 $V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$ $V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$ ...
   

1
MNIST Softmax回歸以70%的精度撞牆
作為Android機器學習程序的一部分,我已經在Java中實現了Softmax回歸算法。但是,不管我讓它運行多長時間,精度都會達到約70.5%,然後無限期達到平穩狀態,但是我從中獲得數據的站點指出,我應該接近90%。我已經一遍又一遍...
     

1
比較RMSE與模型
我正在使用新數據集上的RMSE評估模型預測的準確性。現在,RMSE本身並沒有給出任何關於它是否是好的模型的跡象,因為沒有閾值表明它是 好的 。我的問題是,以均值作為預測因子來計算空模型的均方根誤差,並將其與我模型...
   

1
當我無法分類數據時會發生什麼?
我有以下數據集:a1 a2 dec 2 1 0 0 0 1 4 0 1 8 0 0 4 0 1 4 1 0 6 0 0 2 0 0 4 0 1 4 1 1 基於此,我創建了樹: 但是,在分析屬性時,我遇到了一個問題:我們有2條記錄,其中a1 = 4,a2 = 1,這導致兩個不同的決策。我該怎麼辦-是...
 

1
治療水平作為隨機效應?
我試圖理解我繼承的SAS程序。它使用線性混合模型來檢驗施肥量對玉米籽粒產量的影響。有五種不同的肥料用量,每種肥料重複三次,每年連續三年重複進行該實驗。現有的SAS模型如下:proc mixed data = grainYield plots = studentpanel;...
  

2
威布爾分佈的圖形驗證
我想驗證Weibull是否是我進行生存分析時的最佳候選人。因此,我繪製了log(t)vs log(-log(Kaplan-Meier)。但是我得到了兩條線以某種方式連接的圖,而不是兩條線。有什麼想法我做錯了嗎?fit<-survfit(Surv(Time, Status)~Drug, data=pbc) ...
    

2
向量結果Logistic回歸
問題: 在給定連續因素的情況下嘗試對布爾結果向量進行推斷時,應該使用哪種模型(相似性/先前的家庭)? 詳細說明: 我目前僅知道針對此的機器學習方法(例如,人工神經網絡可能具有多個輸出層節點)。我有興趣學習...
    

3
Heckman選擇模型假設
Heckman選擇模型假定選擇誤差和主方程誤差均相關且正態分佈,選擇方程中的解釋變量與誤差項無關,主方程式中的解釋變量與誤差項無關。 疑問:兩個方程的解釋變量如何獨立於誤差項,同時使誤差項相關?...
  

4
如何解釋標準差或95%CI以描述總體?
在閱讀科學文章時,我看到了在描述研究人群時總結連續變量的不同方法。例如,如果我想描述研究人群的平均年齡,可以將其與標準偏差或95%CI相結合進行顯示。儘管這些顯然是相關的,但我的問題是,哪一個最有意義。我...
   

4
什麼時候可以考慮進行化學方面的重複和獨立實驗?
抱歉,標題有些混亂。我想知道在化學和生化實驗中如何使用置信區間。我知道,必須重複實驗,並且數據必須獨立。但是-假設您正在做一個實驗,將兩種化學物質混合,讓它們在某些條件下反應,然後測量產品的收率或純度...
   

2
Matlab中兩個線性回歸斜率之間的統計差異
我有以下數據,正在matlab中進行分析:d = [1901 17.5 11.5 1902 12.5 8.5 1903 12.5 11.5 1904 18.5 18.5 1905 12.5 10.5 1906 10.5 8.5 1907 19.5 16.5 1908 12.5 13.5 1909 8.5 9.5 1910 16.5 11.5 1911 16.5 10.5 1912 9.5 13.5 1913 25.5 15.5 1914 20.5 17.5 1915 18.5 1...
 

Next page