본문 바로가기
machine learning

keras dataset : imdb

by 단창 2020. 3. 2.

25000개의 영화, 25000개의 리뷰-> 좋지않은 단어(?) 어느정도 필터링 후 -> word를 단어인덱스(정수)로 구성된 sequence로 인코딩한것

단어빈도를 기준으로 인코딩됨. (랜덤 순서가 아님) 

1로 인코딩된 단어는 1번째로 많이 나오는 단어였음. 200은 200번째로 많이 나오는 단어

 

train 과 test는 1:1로 제공 됨 

라벨값은 리뷰가 긍정적일경우1, 부정적일경우 2 로 표기 

 

 

https://keras.io/ko/datasets/

 

Datasets - Keras Documentation

데이터 셋 CIFAR10 소형 이미지 분류 50,000개의 32x32 컬러 학습 이미지, 10개 범주의 라벨, 10,000개의 테스트 이미지로 구성된 데이터셋. 사용법: from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) = cifar10.load_data() 반환값: 2개의 튜플: x_train, x_test: RGB 이미지 데이터의 uint8 배열. channels_first

keras.io

https://wikidocs.net/24586

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

반응형

'machine learning' 카테고리의 다른 글

tensorflow 1 -> tensorflow 2 변환  (0) 2020.10.30
텐서(Tensor)란  (0) 2020.03.03
precision at K, MAP, recall at K  (0) 2019.10.12
negative sampling  (0) 2019.08.12
Word2Vec 의 학습  (0) 2019.05.13