В одном из недавних проектов мне понадобился полнотекстовый поиск по PDF документам и картинкам. В результате поиска подходящего инструмента наткнулся на Tesseract OCR. Это весьма простой и удобный инструмент распознавания текста на разных языках, в том числе и на русском.
У этого...