background image

One-hot Encoding

β–  Turn the categorical values into numerical

– Counted in correlation calculations
– Compatible for the model

β–  Create dummy variables: one label is turned into a π‘-dimensional vector

– N is the number of all different values the categorical variable has

e.g. Column 2:  π‘‡πΆπ‘ƒ, π‘ˆπ·π‘ƒ, πΌπΆπ‘€π‘ƒ β†’ 1,0,0 , 0,1,0 , 0,0,1

– Each record has all 0𝑠, except in one dimension that it has 1
– .get_dummies method: move categorical values at the end and expand them into 

vectors

17