part 1
# 데이터프레임을 이용하기 위하여 판다스 패키지를 임포트한다
import pandas as pd
# 구글에서 titanic filetype:xls 로 검색
df_train = pd.read_excel('/content/drive/My Drive/Colab Notebooks/data/titanic.xls')
df_train.head()
df_train.head(10)
df_train.columns
- pclass : 승선 클래스
- survived : 생존여부(1:생존, 0:사망)
- name : 이름
- sex : 성별
- age : 나이
- sibsp : 형제자매, 배우자 수
- parch : 부모, 자식 수
- tichet : 티켓번호
- fare : 요금
- cabin : 객실번호
- embarked : 승선항구
df_train.tail(3)
df_train.info()
df_train.describe()
df_train.isnull().sum()
# 해당 컬럼값이 널인 경우 'N'으로 채운다
df_train['cabin'] = df_train['cabin'].fillna('N')
df_train['cabin']
# 나이 컬럼 값이 널인경우 전체 나이의 평균으로 할당한다
df_train['age'] = df_train['age'].fillna(df_train['age'].mean())