본문 바로가기

머신러닝/데이터셋

1-2. 머신러닝 학습용 데이터셋 - 사이킷런(scikit-learn) 토이 데이터셋(Toy Datasets)

머신러닝 학습을 위해서는 여러 종류의 데이터셋이 필요하다.

좋은 데이터셋의 확보는 머신러닝 알고리즘을 이해하는데 굉장히 큰 영향을 미친다.

 

Python을 활용한 머신러닝 학습에 있어서 가장 많이 사용하는 라이브러리 중의 하나는 사이킷런(scikit-learn)이다.

사이킷런에서는 각종 데이터셋을 제공하고 있다.

사이킷런에서 제공하는 데이터셋에는 7가지의 Toy datasets이 있다.

토이데이터셋은 머신러닝 학습용으로 제공하는 데이터셋이라고 이해하면 된다.

 

7가지 데이터셋을 소개하고 그 중, 우리가 활용할 데이터셋은 필요 시, 조금 더 자세히 소개한다.

 

1. Boston house prices dataset

보스톤 주택 가격 데이터셋

506개 데이터

 

2. Iris plants dataset

아이리스(붓꽃) 데이터셋

3개 클래스


3. Diabetes dataset

당뇨병 환자 데이터셋

442개 데이터


4. Optical recognition of handwritten  digits dataset

손글씨 데이터셋

10개 클래스

 

5. Linnerrud dataset

운동, 생리학적 변수 데이터셋

20개 데이터


6. Wine recognition dataset

와인 데이터 분석 데이터셋

3개 클래스


7. Breast cancer wisconsin (diagnostic) dataset

유방암 진단 데이터셋 사본

2개 클래스

 

 

참조 : scikit-learn.org/stable/datasets/index.html#toy-datasets
위 내용은 사이킷런 공식 홈페이지에서 확인할 수 있다.
 

7. Dataset loading utilities — scikit-learn 0.23.2 documentation

The 20 newsgroups dataset comprises around 18000 newsgroups posts on 20 topics split in two subsets: one for training (or development) and the other one for testing (or for performance evaluation). The split between the train and test set is based upon a m

scikit-learn.org

https://scikit-learn.org/stable/index.html