добывание информации из pdf-файлов или взлом eBook'ов

       

схематичное представление структуры PDF-файла


Поддерживаются данные следующих типов: булевские константы (boolean), числа (numeric), ссылка на объекты (object reference), имена (name), строки (string) и потоки (stream). Потоки начинаются с ключевого слова "stream" и заканчиваются ключевым словом "endstream", а между ними расположены двоичные данные. Давайте откроем любой документ HIEW'ом, чтобы найти их (см. рис. 9). Строки могут быть как литеральными (т.е. состоящими из печатаемых символов), так и шестнадцатеричными. Литеральные строки заключаются в круглые скобки: "(это литеральная строка)", а шестнадцатеричные — в угловые: "<4E6F762073686D6F7A206B6120706F702E>
". Строки и потоки могут быть шифрованы, остальные типы данных — нет.



Содержание раздела