머신러닝 학습을 위해서는 여러 종류의 데이터셋이 필요하다.
좋은 데이터셋의 확보는 머신러닝 알고리즘을 이해하는데 굉장히 큰 영향을 미친다.
Python을 활용한 머신러닝 학습에 있어서 가장 많이 사용하는 라이브러리 중의 하나는 사이킷런(scikit-learn)이다.
사이킷런에서는 각종 데이터셋을 제공하고 있다.
사이킷런에서 제공하는 데이터셋에는 7가지의 Toy datasets이 있다.
토이데이터셋은 머신러닝 학습용으로 제공하는 데이터셋이라고 이해하면 된다.
7가지 데이터셋을 소개하고 그 중, 우리가 활용할 데이터셋은 필요 시, 조금 더 자세히 소개한다.
1. Boston house prices dataset
보스톤 주택 가격 데이터셋
506개 데이터
2. Iris plants dataset
아이리스(붓꽃) 데이터셋
3개 클래스
3. Diabetes dataset
당뇨병 환자 데이터셋
442개 데이터
4. Optical recognition of handwritten digits dataset
손글씨 데이터셋
10개 클래스
5. Linnerrud dataset
운동, 생리학적 변수 데이터셋
20개 데이터
6. Wine recognition dataset
와인 데이터 분석 데이터셋
3개 클래스
7. Breast cancer wisconsin (diagnostic) dataset
유방암 진단 데이터셋 사본
2개 클래스
참조 : scikit-learn.org/stable/datasets/index.html#toy-datasets
위 내용은 사이킷런 공식 홈페이지에서 확인할 수 있다.
7. Dataset loading utilities — scikit-learn 0.23.2 documentation
The 20 newsgroups dataset comprises around 18000 newsgroups posts on 20 topics split in two subsets: one for training (or development) and the other one for testing (or for performance evaluation). The split between the train and test set is based upon a m
scikit-learn.org
'머신러닝 > 데이터셋' 카테고리의 다른 글
1-2-2. 아이리스 데이터셋 (Iris plants dataset) (0) | 2020.09.08 |
---|---|
1-2-1. 보스톤 주택 가격 데이터셋 (Boston house prices dataset) (0) | 2020.09.08 |