MNIST 데이타 이야기
NIST SD19
1995년 3월 16일, 미국 상무부의 비규제기관이며 계량연구소인 NIST에서 'NIST 특별 데이타베이스 19' 라는 문서를 공개하였다(Grother 등, 1995). 이 문서에는 '특별 데이타베이스 19' (SD19) 라는 CD 자료에 대한 자세한 설명이 담겨져 있다. SD19 CD에는 총 4170명이 작성한 서식들 중 3699장의 바이너리 이미지 데이타가 들어 있다. 고등학교 수업 시간에 작성된 자료들 중 일부(전체 9개의 분획 중 hsf_5로 분류된 한 분획 분량의 자료로, 작성자 번호 2600-3099에 해당)는 공개되지 않고 미래 시험을 위해 NIST에 보관되었기 때문에 공개에서 제외되었다. 공개된 이미지는 손으로 내용을 채워넣은 서식의 이미지이다. 대부분의 자료들은 인구조사 서식으로부터 광학 스캔된 자료이며, 고등학교 수업 시간에 작성된 서식으로부터 얻은 자료(분획 hsf_4, 작성자 번호 2100-2599)도 일부 포함되어 있다. 손으로 쓴 숫자와 알파벳을 하나씩 잘라낸 분절 이미지 814,255개도 함께 포함되어 있다. 각각의 분절 문자는 128*128 크기의 픽셀 이미지였으며, '0-9', 'A-Z', ;a-z' 범위에 해당하였다. 각 분절의 이미지가 어느 글자에 해당하는지는 사람이 수작업으로 확인하였으며, 이 작업의 오류는 약 0.1%정도 되었다. 이 문자들은 이름, 도시/주, 작성일 등등 34종의 필드에서 추출되었으며, 300dpi로 스캔되었다.
제1회 인구조사 광학문자인식 시스템 컨퍼런스에서는 26개의 대학 및 기업에서 제출한 45개의 OCR 시스템의 성능에 대한 논의가 있었다. 이 당시 NIST는 hsf_4 분획의 이미지(다른 분획들의 자료는 인구조사 서식에서 얻은 자료인 반면, hsf_4 분획은 고등학교 수업시간에 얻은 자료들이다)를 테스트 세트로 제공하였다. 각 시스템은 2주 동안의 처리 기간을 거친 다음 성능을 평가하였으며, 그 결과는 Wilkinson 등(1992)에 의해 발표되었다. 당시 참가자들은 훈련용 이미지로 어떤 이미지라도 사용하도록 허용되었지만 NIST는 hsf_0 ~ hsf_3의 이미지들을 훈련용 데이타로 제공하였다. 대부분의 참가자들은 제공된 hsf_0 ~ hsf_3 이미지 자료를 훈련용으로 사용하였다. 나중에 테스트용 데이타(hsf_4)가 훈련용 데이타(hsf_0 ~ hsf_3)보다 광학 인식이 더 어렵다고 알려졌으며, 이 사실은 교차 검증 연구를 통해 확인되었다(Grother, 1993). 이런 이유 때문에 hsf_4 데이타세트는 OCR 성능 보고 용도로만 사용하도록 추천된다. (인구조사 광학문자인식 시스템 컨퍼런스의 결과들과 의미있는 성능 비교를 위해서)MNIST database
1998년 LeCun은 NIST SD1과 SD3로부터 Modified NIST set을 구성하였다. NIST는 원래 SD3를 훈련용으로 DS1을 테스트용으로 표시하였다. 그러나 SD3가 더 깨끗하고, 인식하기가 쉬웠다. 이유는 SD1은 고등학생들로부터 수집된 자료인 반면, SD3는 인구조사 사무소 직원들이 작성한 자료이기 때문이었다. 기계학습 실험으로부터 이성적인 결론을 그려내기 위해서는 실험 결과가 선택된 훈련 세트나 테스트 세트와 무관해야 했다. 이 때문에 NIST의 데이타를 섞어 새로운 데이타베이스를 만들 필요성이 있었다.
Leave MNIST 데이타 이야기 to:
Read more #mnist posts
Best Posts From cnuchips
We have not curated any of cnuchips's posts yet. But you can encourage our curation team to review posts by visiting them regularly and by referring other readers. Because we give priority to frequently read content.