Вопрос Извлечение встроенных изображений из PDF


Прежде чем я начал использовать Ubuntu, я использовал программу Nitro PDF для автоматического извлечения изображений из файлов PDF. Есть ли для этого Linux-программа для чтения PDF-файлов?

Я хотел бы иметь возможность извлекать изображения быстрее / легче, чем при съемке.


138
2018-06-12 22:36


происхождения


Вы можете вспомнить, насколько хорошо NitroPDF может делать с векторными изображениями? Можно pdfimages сделать это лучше / хуже, чем NitroPDF? - Léo Léopold Hertz 준영
Возможный дубликат инструмент командной строки для массового извлечения изображений из pdf? - funky-future
@ funky-future Ясно, что два вопроса - это дубликаты, но у вашей дублированной цели есть только два ответа, и один из этих двух ответов является ответом на спам, поэтому направление дублирования должно быть отменено, чтобы сохранить этот вопрос от того, чтобы его забили молотком. - karel


ответы:


использование pdfimages

pdfimages это инструмент для удаления PDF-изображений, который сохраняет изображения в PDF-файле в формате PPM, PBM, JPEG или JPEG 2000.

Это часть poppler-utils пакет, который вам нужно будет установить.

Применение:  pdfimages [options] <PDF-file> <image-root>

Пример: Следующий фрагмент извлекает все изображения из файла PDF, сохраняя их в формате JPEG.

pdfimages -j in.pdf /tmp/out

Сохраняет изображения из файла PDF in.pdf в файлах /tmp/out-000.jpg (или /tmp/out-000.pbm; Смотри ниже), /tmp/out-001.jpg, и т.д.


PDF-файлы справочная страница объясняет:

-j:  Normally, all images are written as PBM (for monochrome images) or PPM for
     non-monochrome images) files. With this option,  images in DCT format are
     saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual.

169
2018-06-12 23:06



Было бы неплохо иметь решение, которое извлекает изображения в собственном формате. Повторное кодирование JPEG не является идеальным. - Christian
@Christian from man page -all Write JPEG, JPEG2000, JBIG2, and CCITT images in their native format. CMYK files are written as TIFF files. All other images are written as PNG files. This is equivalent to specifying the options -png -tiff -j -jp2 -jbig2 -ccitt. - wil93
Обратите внимание, что -all коммутатор поддерживается только в последних версиях poppler-utils. Например, если вы все еще в 12.04, вы не сможете получить доступ к этой опции - Glutanimate
Если вы не можете использовать -all перейти к форматам PNM. Они без потерь, и вы можете обрабатывать изображения, например. к PNG. - Tomasz Gandor
@Christian, используйте $ pdfimages -list <PDF-file> для проверки исходного формата в столбце «enc», поэтому вам не нужно перекодировать изображение в другой формат. - Jose Barakat


Я часто использую Inkscape для этого. Загрузите страницу и удалите все остальные вещи. Преимущество состоит в том, что вы можете получать векторные изображения в SVG и изменять их по своему усмотрению.


18
2017-09-11 13:12



Некоторые PDF-файлы могут быть импортированы только с внутренним импортом Inkscape (импорт poppler / cairo или pdfimage не может его правильно разобрать). После импорта скопируйте и вставьте изображение в новый файл и измените размер страницы на выбор. graphicdesign.stackexchange.com/a/21638/95041 - sdaffa23fdsf


Вы также можете попробовать pdfmod. Это графический интерфейс (GUI), который может извлекать изображения и выполнять другие основные манипуляции с PDF-файлами.


4
2018-06-13 17:18



Хм, мне кажется, что это не так. Вставил PDF с преимущественно фиолетовыми изображениями и получил зеленоватые изображения. - DBX12


У меня есть двухстоечный PDF-файл со встроенными изображениями, созданными с помощью LaTeX, где исходные изображения были представлены как EPS. Я попробовал предлагаемое решение на основе pdfimages, но, к сожалению, он не возвратил никаких изображений. Я попытался использовать Inkscape, но созданные SVG-изображения были искажены, и мне не удавалось экспортировать их как EPS.

Программное обеспечение, с которым мы работали, было MasterPdfEditor,

Вот процедура

  • Откройте файл с помощью мастера PDF Editor
  • Использовать инструмент редактирования (Alt + 1), чтобы выбрать изображение, которое нужно извлечь
  • Скопируйте фигуру (Ctrl + C)
  • Нажмите на окруженную пунктирную рамку вокруг изображения и проверьте правую боковую панель (Object Inspector) и нажмите «Geomerty». Там вы можете увидеть размер вашего выбора
  • Создайте новый файл (Ctrl + N). Он предложит вам указать размер страницы. Укажите точный размер изображения и создайте новый файл
  • Теперь немного сложно: вставьте изображение (Ctrl + V). Изображение может не отображаться в новом файле. Используйте стрелки, чтобы переместить его, пока вы не сможете его проследить.
  • Используйте стрелки, чтобы центрировать изображение на новой странице.
  • Сохранить как PDF

Результат очень высокого качества, но программное обеспечение не бесплатно. Существует демо-версия, которая «позволяет вам попробовать все функции», но поставляется с «добавлением водяного знака в выходной файл». Чтобы быть откровенным, я не заметил никакого водяного знака в выпущенном PDF-файле.


4
2018-04-12 16:50



Это Ask Ubuntu ... Нам нравится open source здесь, и ваше решение является коммерческим решением с закрытым исходным кодом ... Как это лучше, чем уже подтвержденные ответы? (-1 в среднем) - Fabby
@Fabby Спасибо за отзыв. Я не знал об этом. Есть ли такое правило на askubuntu.com? Однако, как только вы откроете Программный центр Ubuntu, вы получаете предложения для несвободных приложений. - Pantelis Sopasakis
Нет, нет «правила», поэтому я не голосовал, чтобы удалить этот ответ, но есть бесплатные инструменты, которые бесплатны (как в бесплатном пиве а также свободная речь), так что это просто мнение. - Fabby
+1. Я использовал командную строку ImageMagick, но это интересное решение для тех, кто ищет графический интерфейс. - rpmcruz
Это работает для некоторых людей, это достаточно хорошо. Не будь нацистами ... Я не знаю, кто мы. Вы можете говорить только для себя. +1 за ответ - sdaffa23fdsf


Я использую pdfimages, который является инструментом командной строки, и он отлично работает для меня. Он очень прост в использовании, и вы можете использовать опцию --help, чтобы узнать больше о его использовании. Я использую Ubuntu, и он поставляется с предустановленной. Если ваши файлы PDF зашифрованы или защищены паролем, для этого есть варианты, поэтому этот инструмент отлично работает. Ты можешь читать Больше о pdfimages Вот 


2
2017-07-24 01:39



Пожалуйста, прочитайте другие ответы перед отправкой. Обратите внимание, что есть другие, которые охватывают это. - edwin
Хорошо, извините :) Я думал опубликовать мой, потому что у него есть информация о защищенных паролем pdf-файлах, и я объясню, что этот инструмент имеет эти параметры, плюс я разместил ссылку, которая представляет собой учебник об этом инструменте. - jetbird13
Если вы получаете достаточную репутацию, вы можете прокомментировать ответы других или поддержать их. - edwin


Если вам нужно обрезанное изображение в формате pdf / eps, затем извлеките страницу с изображением, используя pdfmod(как было предложено To Do).

Затем, используя pdfcrop вы можете обрезать его, правильно устанавливая поля с помощью проб и ошибок:

pdfcrop --margins "-15 -50 0 -140" extracted_page.pdf

2
2018-06-12 14:17





В pdfimages извлеченное изображение может быть в двух или более частях. Простой способ собрать их вместе, не заботясь о извлеченных форматах, - это импортировать детали в LibreOffice Draw, обрезать диалог обрезания изображений, поместить детали, отрегулировать размер страницы и экспортировать в любом формате, который вы предпочитаете.


1
2018-01-06 23:54