亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么在R語言中對數據進行重新編碼

發布時間:2021-04-17 15:13:37 來源:億速云 閱讀:553 作者:Leah 欄目:開發技術

怎么在R語言中對數據進行重新編碼?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

(一)使用邏輯判斷式

(1)現假設我們需要將下面的連續型變量x按照10與20分成三個組,新的分組名稱為1、2、3:

怎么在R語言中對數據進行重新編碼

> x2=1*(x<=10)+2*(x>10&x<=20)+3*(x>20)
> x2
 [1] 1 2 3 2 3 3 3 3 1 3 3 2 1 2 3 3 3 2 3 3

將上述變量的數字編碼改為字符編碼

> labels=c("A","B","C")
> x3=labels[x2]
> x3
 [1] "A" "B" "C" "B" "C" "C" "C" "C" "A" "C" "C" "B" "A" "B" "C" "C" "C" "B" "C" "C"

假設如下將以下范例月收入數據分成“低收入”,“中等收入”,“高收入”三個組:

> income<-c(130065,82961,133076,123028,108945,173466,17477)
> income
[1] 130065  82961 133076 123028 108945 173466  17477
> newcodes=c("低收入","中等收入","高收入")
Error: unexpected input in "newcodes=c("低收入"?
> newcodes=c("低收入","中等收入","高收入")
> index=1*(income<20000)+2*(income>=20000&income<=60000)+3*(income>60000)
> income=newcodes[index]
> income
[1] "高收入" "高收入" "高收入" "高收入" "高收入" "高收入" "低收入"

(2)使用ifelse函數

基本語法:ifelse(邏輯判斷式,TRUE-表達式,FALSE-表達式)

編碼成兩個分組:

> x
 [1]  4 12 50 18 50 22 23 46  8 46 36 18 10 14 35 48 23 17 29 30
> (x2=ifelse(x<=30,1,2))
 [1] 1 1 2 1 2 1 1 2 1 2 2 1 1 1 2 2 1 1 1 1
> (x3=ifelse(x<=30,"A","B"))
 [1] "A" "A" "B" "A" "B" "A" "A" "B" "A" "B" "B" "A" "A" "A" "B" "B" "A" "A" "A" "A"

搭配%int%運算符,將"A",“C"重編碼為"Group1”,“B”,“D"重編碼為"Group2”:

> y
 [1] "B" "A" "C" "C" "B" "A" "D" "B" "C" "D"
 > (y2=ifelse(y %in% c("A","C"),"Group1","Group2"))
 [1] "Group2" "Group1" "Group1" "Group1" "Group2" "Group1" "Group2" "Group2" "Group1" "Group2"

當編碼成三個或者三個以上的組時需要多次使用ifelse 函數:

將x按照10與20兩個分割點分成1、2、3三組:

> x
 [1]  4 12 50 18 50 22 23 46  8 46 36 18 10 14 35 48 23 17 29 30
> (x2=ifelse(x<=10,1,ifelse(x<20,2,3)))
 [1] 1 2 3 2 3 3 3 3 1 3 3 2 1 2 3 3 3 2 3 3

將“A”“E”編碼為1,"C"編碼為2,“B”“D”編碼為3:

> y
 [1] "B" "A" "C" "C" "B" "A" "D" "B" "C" "D"
> y2=ifelse(y%in%c("A","E"),1,ifelse(y=="C",2,3))
> y2
 [1] 3 1 2 2 3 1 3 3 2 3

(二)使用cut 函數

cut函數可以根據我們設置的分割點(breaks)將數據重編碼,將一個數值向量變量轉換為分組形態的factors變量。

基本語法:

cut(x,breaks,labels,include.lowest=F,right=T)

其中

x為數值向量

breaks為分割點信息。若breaks為向量,則根據向量中的數字進行分割。若breaks為大于1正整數k,則將

x分成均等的k組。

labels為分割后各組的名稱,若為null,則輸出數字向量,否則輸出factor變量。

include.lowest=FALSE表示分割時不含各區間端點的最小值。

right=T表示各區間為左端open,右端closed的區間

使用cut函數將x向量依照0、10、20,max(x)分成3組

> x
 [1]  4 12 50 18 50 22 23 46  8 46 36 18 10 14 35 48 23 17 29 30
> x2=cut(x,breaks = c(0,10,20,max(x)),labels = c(1,2,3))
> x2
 [1] 1 2 3 2 3 3 3 3 1 3 3 2 1 2 3 3 3 2 3 3
Levels: 1 2 3
> as.vector(x2)
 [1] "1" "2" "3" "2" "3" "3" "3" "3" "1" "3" "3" "2" "1" "2" "3" "3" "3" "2" "3" "3"

若沒有給定labels參數,cut函數自動按照分割點生成分組名稱:

x3=cut(x,breaks = c(0,10,20,max(x)))
> x3
 [1] (0,10]  (10,20] (20,50] (10,20] (20,50] (20,50] (20,50] (20,50] (0,10]  (20,50] (20,50] (10,20] (0,10] 
[14] (10,20] (20,50] (20,50] (20,50] (10,20] (20,50] (20,50]
Levels: (0,10] (10,20] (20,50]

現在我們模擬產生10個N(60,10)的隨機成績,并且使用cut函數的breaks選項將其分成5個組:

> score=round(rnorm(10,60,10))
> score
 [1] 39 65 60 69 58 69 70 62 61 75
> score.cut=cut(score,breaks=5)
> score.cut
 [1] (39,46.2]   (60.6,67.8] (53.4,60.6] (67.8,75]   (53.4,60.6] (67.8,75]   (67.8,75]   (60.6,67.8]
 [9] (60.6,67.8] (67.8,75]  
Levels: (39,46.2] (46.2,53.4] (53.4,60.6] (60.6,67.8] (67.8,75]

由以上結果可知,cut()函數默認輸出一個factor變量,并且自動將五個分組命名為“ (39,46.2]”…“ (67.8,75]”。如果cut()的選項labels=FALSE,則輸出的結果是數字編碼的一半向量變量:

> score.cut=cut(score,breaks=5,labels = F)
> score.cut
 [1] 1 4 3 5 3 5 5 4 4 5
> score.cut=as.factor(score.cut)
> score.cut
 [1] 1 4 3 5 3 5 5 4 4 5
Levels: 1 3 4 5

(三)使用car程序包中的recode函數

car程序包的recode函數可以將數值或者字符向量、factor變量重新編碼。

基本語法:recode(x,recodes,as.factor.result,levels)

其中:

x為數值向量,字符向量或者factor 變量。

recode為設定重新編碼規則的字符串。

as.factor.result為是否輸出factor變量。若是則為TRUE,不是為FALSE。

levels為排序向量。指定新的編碼分組的順序(默認是按照分組名稱排序)。

recodes參數編碼規則的寫法

recodes參數的值是一個字符串,字符串里面是以分號分隔的編碼規則:

recodes=“規則1;規則2…”

每一個編碼規則的格式為舊碼列表=新碼,“舊碼列表”部分可用lo代表舊碼的最小值(low)、hi代表舊碼的最大值(high)撰寫規則如下:

(1)舊碼=新碼 舊碼只有單一數值。例如:“0=NA”表示將0改為NA。

(2)舊碼向量=新碼 多個舊碼改為一個新碼。例如:“c(7,8,9)=‘high'”,將7,8,9改為high。

(3)start:end=新碼 有序數字改碼。例如:“lo:19=‘C'”。

(4)else=新碼 所有其他情況。例如:“else=NA”。

程序范例:

> library(carData)
> library(car)
> x
[1] 1 2 3 1 2 3 1 2 3
> recode(x,"c(1,2)='A';else='B'")
[1] "A" "A" "B" "A" "A" "B" "A" "A" "B"

將成績0~40分之間的分數編碼為1,41-60分之間為2,61-80分為3,81以上為4,其他情況為NA

> score
 [1] 75 70 66 65 55 69 75 69 82 83
> recode(score,"lo:40=1;41:60=2;61:80=3;81:hi=4;else=NA")
 [1] 3 3 3 3 2 3 3 3 4 4

上例改用‘A'‘B'‘C''‘D'

> recode(score,"lo:40='A';41:60='B';61:80='C';81:hi='D';else=NA")
 [1] "C" "C" "C" "C" "B" "C" "C" "C" "D" "D"

補充:R語言字符串處理時的編碼的一些問題問題(Windows環境)

R在windows中文系統時默認使用GB編碼字符,而許多函數是只支持UTF-8的,例如

怎么在R語言中對數據進行重新編碼

不作任何處理讀入數據時,數據會以系統默認編碼讀入,tolower()函數工作失敗

如果有干預的讀入數據,即指定字符串的編碼,則不會出錯

怎么在R語言中對數據進行重新編碼

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

林甸县| 南充市| 梅州市| 恩平市| 潢川县| 洪湖市| 泗阳县| 泸水县| 长武县| 灵武市| 南阳市| 景宁| 齐齐哈尔市| 徐闻县| 河西区| 益阳市| 开阳县| 太仆寺旗| 都江堰市| 武定县| 茂名市| 黄冈市| 安阳市| 松阳县| 西青区| 大姚县| 霍山县| 达拉特旗| 塔城市| 沙坪坝区| 通城县| 时尚| 阿坝县| 克什克腾旗| 灵台县| 雅江县| 巴林左旗| 咸阳市| 辽阳县| 宣汉县| 邯郸县|