您好,登錄后才能下訂單哦!
本篇內容介紹了“數據科學家進行機器學習的問題有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
機器學習是近來最受歡迎的技能之一。我們組織了各種技能測試,以便數據科學家可以檢查自己的這些關鍵技能。這些測試包括機器學習,深度學習,時間序列問題和概率。
以下是分布得分,它們將幫助你評估自己的成績。
超過210人參加了技能測試,獲得的最高分是36。以下是有關分數的一些統計數據。
平均得分:19.36
中位數得分:21
模式得分:27
A)特征F1是定類變量的示例。 B)特征F1是定序變量的示例。 C)它不屬于上述任何類別。 D)這兩個都是
解決方案:(B)
定序變量是在其類別中具有某些順序的變量。例如,應將A級視為比B級更高的等級。
A)PCA
B)K-Means
C)以上都不是
解決方案:(A)
確定性算法是在不同的運行中,其輸出不會改變的算法。如果我們再次運行,PCA會給出相同的結果,但K-Means不會。
A)對
B)錯
解決方案:(A)
Y = X2。請注意,它們不僅相關,而且一個變量是另一個變量的函數,并且它們之間的皮爾遜相關性為零。
在GD和SGD中,你以迭代方式更新一組參數以最小化誤差函數。
在SGD中,你必須遍歷訓練集中的所有樣本,才能在每次迭代中一次更新參數。
在GD中,你可以使用整個數據或訓練數據的子集在每次迭代中更新參數。
A)僅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1,2和3
解決方案:(A)
在每次迭代的SGD中,通常選擇包含隨機數據樣本的批次,但對于GD,每次迭代均包含所有訓練觀測值。
樹數
樹深
學習率
A)僅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1, 2和3
解決方案:(B)
通常,如果我們增加樹的深度,將導致過度擬合。學習率不是隨機森林中的超參數。樹的數量增加將導致擬合不足。
你的分析基于諸如作者姓名,同一位作者過去在Analytics Vidhya上撰寫的文章數之類的特征以及其他一些特征。在這種情況下,你會選擇以下哪個評估指標?
均方誤差
準確性
F1分數
A)僅1
B)只有2
C)只有3
D)1和3
E)2和3
F)1和2
解決方案:(A)
可以認為文章的觀看次數是屬于回歸問題的連續目標變量。因此,均方誤差將被用作評估指標。
A)
B)
C)
A)1是tanh,2是ReLU,3是SIGMOID激活函數。
B)1是SIGMOID,2是ReLU,3是tanh激活函數。
C)1是ReLU,2是tanh,3是SIGMOID激活函數。
D)1是tanh,2是SIGMOID,3是ReLU激活函數。
解決方案:(D)
SIGMOID函數的范圍是[0,1]。
tanh函數的范圍是[-1,1]。
RELU函數的范圍是[0,infinity]。
因此,選項D是正確的答案。
A) -(5/8 log(5/8) + 3/8 log(3/8))
B) 5/8 log(5/8) + 3/8 log(3/8)
C) 3/8 log(5/8) + 5/8 log(3/8)
D) 5/8 log(3/8) – 3/8 log(5/8)
解決方案:(A)
熵的公式是
所以答案是A。
A)分類變量的所有類別都不在測試數據集中。
B)與測試數據集相比,類別中的頻率分布在訓練集中有所不同。
C)訓練集和測試集始終具有相同的分布。
D)A和B
E)這些都不是
解決方案:(D)
兩者都是正確的,OHE將無法對測試集中存在但不在訓練集中的類別進行編碼,因此這可能是應用OHE時的主要挑戰之一。如果在訓練和測試中的頻率分布不相同,則選項B中的挑戰也確實存在,你在應用OHE時需要更加小心。
A)A
B)B
C)A和B
D)這些都不是
解決方案:(B)
Word2vec算法中使用了兩個模型(model1和model2)。model1代表CBOW模型,而Model2代表Skip gram模型。
A) ReLU
B) tanh
C) SIGMOID
D)這些都不是
解決方案:(B)
該函數為tanh,因為此函數的輸出范圍在(-1,-1)之間。
A)真 B)假
解決方案:(B)
對數損失不能為負值。
Type1被稱為誤報,Type2被稱為漏報。
Type1被稱為漏報,Type2被稱為誤報。
當我們拒絕原假設為空的假設時,就會發生Type1錯誤。
A)僅1
B)只有2
C)只有3
D)1和2
E)1和3
F)2和3
解決方案:(E)
在統計假設檢驗中,I型錯誤是對真實無效假設(“誤報”)的錯誤拒絕,而II型錯誤則是錯誤地保留了虛假假設(“漏報”)。
詞干提取
刪除停頓詞
對象標準化
A)1和2
B)1和3
C)2和3
D)1,2和3
解決方案:(D)
詞干提取是從單詞中去除后綴(“ ing”,“ ly”,“ es”,“ s”等)的基于規則的基本過程。
停頓詞是那些與數據上下文無關的詞,例如is / am / are。
對象標準化也是預處理文本的好方法之一。
A)X_projected_PCA將在最近鄰空間中進行解釋。
B)X_projected_tSNE將在最近鄰空間中進行解釋。
C)兩者都將在最近鄰空間中進行解釋。
D)他們都不會在最近鄰空間進行解釋。
解決方案:(B)
t-SNE算法考慮最近鄰點以減少數據的維數。因此,在使用t-SNE之后,我們可以認為縮小的維數也將在最近鄰空間中得到解釋。但是對于PCA則不是這樣。
下面給出的是兩個特征的三個散點圖。
A)圖片1中的函數
B)圖片2中的函數
C)圖片3中的函數
D)圖片1和2中的函數
E)圖片2和3中的函數
F)圖片3和1中的函數
解決方案:(D)
在圖像1中,特征具有高正相關性,而在圖像2中,特征之間具有高負相關性,因此在兩個圖像中,特征對都是多重共線特征的示例。
刪除兩個共線變量。
刪除兩個共線變量中的一個變量。
刪除相關變量可能會導致信息丟失。為了保留這些變量,我們可以使用懲罰回歸模型,例如嶺回歸或套索回歸。
A)僅1
B)僅2
C)僅3
D)1或3
E)2或3
解決方案:(E)
你不能同時刪除這兩個特征,因為在刪除這兩個特征之后,你將丟失所有信息,因此你應該刪除僅一個特征,或者可以使用L1和L2等正則化算法。
R平方增加
R平方減少
A)只有1正確
B)只有2正確
C)1或2
D)這些都不是
解決方案:(A)
在特征空間中添加特征后,無論該特征是重要特征還是不重要特征,R平方始終會增加。
現在,你在X的所有值中加了2(即新值變為X + 2),從Y的所有值中減去了2(即新值是Y-2),Z保持不變。(X,Y),(Y,Z)和(X,Z)的新系數分別由D1,D2和D3給出。D1,D2和D3的值與C1,C2和C3有什么關系?
A)D1 = C1,D2 < C2,D3 > C3
B)D1 = C1,D2 > C2,D3 > C3
C)D1 = C1,D2 > C2,D3 < C3
D)D1 = C1,D2 < C2,D3 < C3
E)D1 = C1,D2 = C2,D3 = C3
F)無法確定
解決方案:(E)
如果你在特征中添加或減去一個值,則特征之間的相關性不會改變。
對測試數據進行預測后,你的模型具有99%的準確性。在這種情況下,以下哪一項是正確的?
對于類別不平衡問題,準確性度量不是一個好主意。
精度度量是解決類別不平衡問題的一個好主意。
準確性和召回率指標對于解決類別不平衡問題很有用。
精度和召回率指標不適用于類別不平衡問題。
A)1和3
B)1和4
C)2和3
D)2和4
解決方案:(A)
參考本文中的問題4。
https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/
對于集成模型中使用的弱學習模型,以下哪個陳述是正確的?
他們通常不會過擬合。
他們有很高的偏差,所以不能解決復雜的學習問題
他們通常過擬合。
A)1和2
B)1和3
C)2和3
D)僅1
E)只有2
F)以上都不是
解決方案:(A)
弱學習模型會確定問題的特定部分。因此,他們通常不會過擬合,這意味著學習能力弱的學習模型具有較低的方差和較高的偏差。
K的增加將導致交叉驗證結果所需的時間更長。
與較低的K值相比,較高的K值將導致交叉驗證結果的置信度較高。
如果K = N,則稱為“留一法(交叉驗證法)”,其中N是觀察數。
A)1和2
B)2和3
C)1和3
D)1,2和3
解決方案:(D)
k值越大,意味著對高估真實預期誤差的偏差就越小(因為訓練倍數將更接近于總數據集),而運行時間則更長(隨著你越來越接近極限情況:留一法交叉驗證)。選擇k時,我們還需要考慮k倍精度之間的方差。
交叉驗證是機器學習中超參數調整的重要步驟。假設你正在通過使用5折交叉驗證從基于樹的模型的10個不同深度值(值大于2)中選擇GBM來調整GBM的超參數“max_depth”。 一個算法(在最大深度為2的模型上)4折的訓練時間是10秒,剩下1折的預測時間是2秒。 注意:公式中忽略硬件依賴性。
A)少于100秒
B)100 – 300秒
C)300 – 600秒
D)大于或等于600秒
E)以上都不是
F)無法估算
解決方案:(D)
5折交叉驗證中深度“2”的每次迭代將花費10秒進行訓練,而測試則需要2秒。
因此,5折將花費12 * 5 = 60秒。由于我們正在搜索10個深度值,因此該算法將花費60 * 10 = 600秒。
但是,在深度大于2的情況下訓練和測試模型所花費的時間將比深度為“2”花費更多的時間,因此總體計時將大于600秒。
你想針對最大深度(從給定的10個深度值)和學習率(從給定的5個不同的學習率)中選擇正確的值。在這種情況下,以下哪項將代表總時間?
A)1000-1500秒
B)1500-3000秒
C)大于或等于3000秒
D)這些都不是
解決方案:(D)
與問題23相同。
<table> <tr> <th>H</th> <th>TE</th> <th>VE</th> </tr> <tr> <td>1個</td> <td>105</td> <td>90</td> </tr> <tr> <td>2</td> <td>200</td> <td>85</td> </tr> <tr> <td>3</td> <td>250</td> <td>96</td> </tr> <tr> <td>4</td> <td>105</td> <td>85</td> </tr> <tr> <td>5</td> <td>300</td> <td>100</td> </tr> </table>
你將根據上表選擇哪個H值?
解決方案:(D)
根據表格,選擇D是最好的
A)將數據轉換為均值零
B)將數據轉換為中位數零
C)不可能
D)這些都不是
解決方案:(A)
當數據的平均值為零時,向量PCA的預測將與SVD相同,否則,在獲取SVD之前必須先將數據居中。
注意:與k相比,n(訓練觀測值的數量)非常大。
A)真
B)假
解決方案:(A)
第一步,你在黑盒算法中傳遞了一個觀察值(q1),因此該算法將返回最近鄰的觀察值及其類標簽。
在第二步中,你將其從訓練數據中選出最接近的觀測值,然后再次輸入觀測值(q1)。黑盒算法將再次返回最近鄰觀測值及其類標簽。
你需要重復此過程k次
J必須是k的適當因子
J > k
不可能
A)1
B)2
C)3
解決方案:(A)
與問題27相同
以下哪項是正確的順序?
1 < 2 < 3 <4
1 > 2 > 3 > 4
7 < 6 < 5 <4
7 > 6 > 5 > 4
A)1和3
B)2和3
C)1和4
D)2和4
解決方案:(B)
從圖像1到4的相關性正在降低(絕對值)。但是從圖像4到7,相關性在增加,但其相關性值是負數(例如0,-0.3,-0.7,-0.99)。
如果分類器對錯誤分類有信心,那么對數損失會對其進行嚴厲懲罰。
對于特定的觀察結果,分類器為正確的類別分配了很小的概率,那么對數損失的相應貢獻將非常大。
對數損失越低,模型越好。
A)1和3
B)2和3
C)1和2
D)1,2和3
解決方案:(D)
以下是數據集中給出的五個樣本。
注意:圖像中各點之間的視覺距離代表實際距離。
A)0
D)0.4
C)0.8
D)1
解決方案:(C)
在“留一法”交叉驗證中,我們將選擇(n-1)個用于訓練的觀察值和1個驗證觀察值。將每個點視為交叉驗證點,然后找到該點最近的3個點。
因此,如果你對所有的點重復這個過程,你將得到正確的分類,所有正類在上圖中給出,但負類將被錯誤分類。因此你將得到80%的準確率。
A)1NN
B)3NN
C)4NN
D)都有相同的留一法錯誤
解決方案:(A)
每個點在1-NN中將始終被錯誤分類,這意味著你將獲得0%的精度。
你正在使用具有L1正則化的邏輯回歸。
其中C是正則化參數,w1和w2是x1和x2的系數。
當你將C的值從零增加到非常大的值時,以下哪個選項是正確的?
A)首先w2變為零,然后w1變為零
B)首先w1變為零,然后w2變為零
C)兩者同時變為零
D)即使C值很大,兩者也不能為零
解決方案:(B)
通過查看圖像,我們發現即使僅使用x2,我們也可以有效地執行分類。因此,首先,w1將變為0。隨著正則化參數的增加,w2將越來越接近于0。
A)僅1
B)只有2
C)1和2
D)以上都不是
解決方案:(A)
如果此類數據適合深度為4的決策樹,則可能會導致數據擬合不足。因此,在擬合不足的情況下,將具有較高的偏差和較低的方差。
A)2和3
B)1和3
C)1和2
D)以上
解決方案:(D)
可以調整所有選項以找到全局最小值。
A)1和3
B)2和4
C)1和4
D)2和3
解決方案:(C)
準確性(正確分類)是(50 + 100)/ 165,幾乎等于0.91。
真陽率是你正確預測陽性分類的次數,因此真陽率將為100/105 = 0.95,也稱為“敏感度”或“召回率”
A)1和2
B)2和3
C)1和3
D)1、2和3
E)不能判斷
解決方案:(E)
對于所有三個選項A,B和C,沒有必要增加參數的值來提高性能。例如,如果我們具有非常高的樹深度值,則生成的樹可能會使數據過擬合,并且不能很好地泛化使用。另一方面,如果我們的值很低,則樹可能不足以容納數據。因此,我們不能肯定地說“越高越好”。
想象一下,你有一個28 * 28的圖像,并且在其上運行了3 * 3的卷積神經網絡,輸入深度為3,輸出深度為8。
注意:“步幅”為1,并且你使用的是相同的填充。
A)寬度28,高度28和深度8
B)寬度13,高度13和深度8
C)寬度28,高度13和深度8
D)寬度13,高度28和深度8
解決方案:(A)
計算輸出大小的公式是
輸出尺寸=(N – F)/ S + 1
其中,N是輸入大小,F是過濾器大小,S是跨度。
A)寬度28,高度28和深度8
B)寬度13,高度13和深度8
C)寬度28,高度13和深度8
D)寬度13,高度28和深度8
解決方案:(B)
同上題。
(從左到右為1,2,3,所以C值對于image1為C1,對于image2為C2,對于image3為C3)。
A)C1 = C2 = C3
B)C1 > C2 > C3
C)C1 < C2 < C3
D)這些都不是
解決方案:(C)
誤差項的懲罰參數C。它還控制平滑決策邊界和正確分類訓練點之間的權衡。對于較大的C值,將選擇邊距較小的超平面進行優化。
“數據科學家進行機器學習的問題有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。