PyTorch : Dataset과 DataLoader

Deep Learning

PyTorch : Dataset과 DataLoader

응엉잉 2022. 8. 16. 15:24

데이터를 미니배치 단위로 처리할 수 있고 데이터를 무작위로 섞음으로써 학습 효율성 향상 가능

데이터를 여러개의 GPU를 사용하여 병렬처리로 학습할 수 있음

Batch : 데이터를 한번에 한묶음씩 처리하는 방식

전체 데이터셋을 batch로 묶어서 iteration의 수 만큼 실행

전체 데이터셋을 batch로 나누고, batch 내의 각각의 데이터를 forward와 backward를 돌리는 방식

Dataset

전체 dataset을 구성하는 단계

input으로 전체 x(feature)와 y(label)을 tensor로 넣어주면 됨

구성

___init__(self) : 필요한 변수들을 선언하는 method. input으로 오는 x와 y를 load 하거나 파일 목록을 load

__len__(self) : 길이를 넘겨주는 method (?)

__getitem__(self, index) : index 번째 데이터를 return하는 method

from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self):
        @@@@
    def __getitem__(self, index):
        @@@@@
    def __len__(self):
        @@@@@

DataLoader

batch size 형태로 만들어서 실제로 우리가 학습할 때 이용할 수 있게 형태를 만들어주는 라이브러리

'Deep Learning' 카테고리의 다른 글

os와 glob (0)	2022.08.18
AutoEncoder와 anomaly detection (0)	2022.08.17
PyTorch : class와 nn.Module 이용해서 신경망 모델 정의 (0)	2022.08.16
PCA (0)	2022.08.16
self-supervised pre-training (0)	2022.07.16

현재글PyTorch : Dataset과 DataLoader

라운드로빈 알고리즘, 랏소회귀, 다중큐, 릿지회귀, 알고리즘 평가 기준, 오차 변화량, wumpus wolrd, Map, Theorem proving, 선점형 스케줄링, 서브셋, 문제은행, Format, 집합, 비선점형 스케줄링, 자동차 종류 별 특정 옵션이 포함된 자동차 수 구하기, FROM절 서브쿼리, 인공지능입문, 파이썬, 가격대별 상품 개수 구하기,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

응엉이의 엉엉코딩일기