본문 바로가기

머신러닝/EDA

3-1. EDA-Titanic 실습 1

part 1

# 데이터프레임을 이용하기 위하여 판다스 패키지를 임포트한다
import pandas as pd

# 구글에서 titanic filetype:xls 로 검색
df_train = pd.read_excel('/content/drive/My Drive/Colab Notebooks/data/titanic.xls')

df_train.head()

df_train.head(10)

df_train.columns

 - pclass : 승선 클래스
 - survived : 생존여부(1:생존, 0:사망)
 - name : 이름
 - sex : 성별
 - age : 나이
 - sibsp : 형제자매, 배우자 수
 - parch : 부모, 자식 수
 - tichet : 티켓번호
 - fare : 요금
 - cabin : 객실번호
 - embarked : 승선항구

df_train.tail(3)

df_train.info()

df_train.describe()

df_train.isnull().sum()

# 해당 컬럼값이 널인 경우 'N'으로 채운다
df_train['cabin'] = df_train['cabin'].fillna('N')
df_train['cabin']

# 나이 컬럼 값이 널인경우 전체 나이의 평균으로 할당한다
df_train['age'] = df_train['age'].fillna(df_train['age'].mean())

'머신러닝 > EDA' 카테고리의 다른 글

3-1. EDA-Titanic 실습 3  (0) 2020.09.10
3-2. EDA-Titanic 실습 2  (0) 2020.09.10
3. EDA-타이타닉 생존자 예측  (0) 2020.09.10