25000개의 영화, 25000개의 리뷰-> 좋지않은 단어(?) 어느정도 필터링 후 -> word를 단어인덱스(정수)로 구성된 sequence로 인코딩한것
단어빈도를 기준으로 인코딩됨. (랜덤 순서가 아님)
1로 인코딩된 단어는 1번째로 많이 나오는 단어였음. 200은 200번째로 많이 나오는 단어
train 과 test는 1:1로 제공 됨
라벨값은 리뷰가 긍정적일경우1, 부정적일경우 2 로 표기
Datasets - Keras Documentation
데이터 셋 CIFAR10 소형 이미지 분류 50,000개의 32x32 컬러 학습 이미지, 10개 범주의 라벨, 10,000개의 테스트 이미지로 구성된 데이터셋. 사용법: from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) = cifar10.load_data() 반환값: 2개의 튜플: x_train, x_test: RGB 이미지 데이터의 uint8 배열. channels_first
keras.io
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
반응형
'machine learning' 카테고리의 다른 글
tensorflow 1 -> tensorflow 2 변환 (0) | 2020.10.30 |
---|---|
텐서(Tensor)란 (0) | 2020.03.03 |
precision at K, MAP, recall at K (0) | 2019.10.12 |
negative sampling (0) | 2019.08.12 |
Word2Vec 의 학습 (0) | 2019.05.13 |