Menu

이미지넷 데이터셋 다운로드

Imagenet 웹 사이트뿐만 아니라 학술 급류에, 우리는 2011 릴리스가 있습니다. Imagenet 웹 사이트의 링크가 깨졌지만 학술 급류에 따르면 이것은 1.31 TB 파일입니다. 학술 급류 이미지넷 전체 (가을 2011 릴리스) ImageNet워드넷 계층 구조에 따라 구성된 이미지 데이터 세트입니다. WordNet의 각 의미 있는 개념을 여러 단어 나 단어 구로 설명할 수 있으며 “동의어 집합” 또는 “synset”이라고 합니다. 100,000 개 이상의 동기화가 있습니다 … 신경망은 현재 이미지 인식에 가장 정확한 결과를 얻을 수 있으며, 심지어 일부 작업에 대한 속도와 정확성에 인간을 능가 (https://medium.com/@sebastiannorena/train-a-keras-신경 네트워크-이미지넷-신세트-에서-구글-colaboratory-e68dc4fd759f) 편집 추가: 공식 ILSVRC2 다운로드 페이지에, 나는 “이 데이터 세트는 변경되지 않습니다. 교육에 대한 총 1,281,167 이미지가 있습니다. 각 synset(범주)의 이미지 수는 732에서 1300사이입니다. 50,000개의 유효성 검사 이미지가 있으며, 동기화당 50개의 이미지가 있습니다. 100,000개의 테스트 이미지가 있습니다. 모든 이미지는 JPEG 형식입니다.”.

파일은 155GB입니다. 데이터를 얻는 한 가지 방법은 전체 ImageNet의 1000 클래스 선택이며 128만 개의 이미지를 포함하는 ImageNet LSVRC 2012 데이터 집합을 선택하는 것입니다. 이 과정에서 클래스당 X 이미지가있는 Y 클래스가있는 데이터 집합을 만드는 다운로더를 작성했습니다. 나는 사용하기 위해 그것을 준비하고 GitHub에 넣어. “각각에 800개 이상의 이미지가 있는 200개의 클래스가 있는 데이터 집합을 원한다”는 도구를 알 수 있으며 이미지 수집이 시작됩니다. 또한 전체 데이터 집합을 얻는 방법을 알아 내려고합니다. 그것은 거기 밖으로 모든 다른 버전 및 소스 때문에 조금 복잡. 경고: 이 데이터 집합은 원본 데이터를 수동으로 manual_dir(기본값 ~/tensorflow_datasets/tensorflow_datasets/manual/imagenet2012/)로 다운로드해야 manual_dir ILSVRC2012_img_train.tar 및 ILSVRC2012_img_val.tar의 두 개의 파일이 포함되어야 합니다. 데이터 집합을 다운로드하려면 링크를 얻으려면 http://www.image-net.org/download-images 등록해야 합니다. “원본 이미지 다운로드”를 선택하고 .edu 이메일을 통해 클리어런스를 얻은 다음 “ImageNet Fall 2011 릴리스”를 클릭하면 URL 목록이 URLhttp://www.image-net.org/api/text/imagenet.synset.geturls?wnid =에서 다운로드 될 수 있으므로 배송의 경우 “http://www.image-net.org/api/text/imagenet.synset.geturls?wnid=n04194289″이 될 수 있으므로 파이썬 라이브러리 BeautifulSoup으로 수행 할 수 있습니다 . 클래스. 클래스당 최소 1,000개 이상의 이미지로 구성된 100개의 클래스 데이터 집합의 다양한 변형을 만들 수 있을 만큼 충분합니다.

PSA: Salamander를 사용하고 있고 빅 데이터 집합이 있는 경우 인스턴스를 끌 때 스토리지를 이동하는 데 30GB당 1시간이 걸릴 수 있습니다… 기본적으로 imagenet.py ~/.mxnet/데이터 집합/이미지넷으로 이미지를 추출합니다. –target-dir을 설정하여 다른 대상 폴더를 지정할 수 있습니다. 각 신디세트는 자신의 ID를 가지고, 그것은 “워드 넷 ID”라고 (wnid). “=” 다음의 각 synset의 URL 끝에 나타납니다. 예를 들어 필요한 synset은 선박의 사진 경우 그것은 imagenet 웹 사이트에서 선박을 검색하여 찾을 수 있으며 결과는 wnid가 있는 다음 페이지가 될 것입니다: n04194289 새벽 벤치 (https://github.com/stanford-futuredata/dawn-bench-entries#imagenet-training), 그들은 ILSVRC2012 데이터 세트에 연결 (http://www.image-net.org/challenges/LSVRC/2012/).