Open source GUI-værktøj til nedbrydning af en PDF

Lizz

2013-04-03 08:09:07 UTC

view on stackexchange narkive permalink

Jeg har ledt efter et open-source GUI-værktøj til at udtrække PDF'er på en automatisk måde på Windows-systemer. Jeg har brugt Didier Stevens værktøjer med stor interesse i et stykke tid, men kan ikke give mening om, hvordan man bruger hans PDF-nedbrydning / analyseværktøjer, selv efter at have set nogle af hans videoer . De ser ud til at kræve betydelig forståelse af den underliggende PDF-konstruktion og muligvis meget mere.

For SWF-filer er værktøjet SWFScan den slags, jeg leder efter: du indlæser fil i værktøjet. Derfra kan du udforske links, scripts og billeder. Det analyserer endda automatisk kode og viser, hvilke dele der kan have sikkerhedsproblemer, og hvad problemet er for hver enkelt, giver derefter en websidehenvisning med mere information.

Er der nogen der kender en god open source GUI til Windows, der kan indlæse en PDF og ikke udføre den, men udpakke alle scripts, kompileret kode, tekst, links, billeder osv.? Ideelt set ville det vise forholdet mellem hver, som når du klikker på et bestemt billede, det fortæller dig, hvilke script (er) der køres, hvilken URL det går til, og giver dig mulighed for at se billedet alene.

PDF'er er så almindelige ved siden af SWF, at denne form for værktøj ser ud til at være allerede almindelig. Jeg har måske overset det / dem.

Didier Stevens-værktøjer bruges i vid udstrækning, men du har ret, du har brug for en forståelse af PDF-filformatet, hvis du vil forstå det. Jeg har et (noget langt) [blogindlæg] (http://www.amccormack.net/anatomy-of-a-pdf-document/), der går gennem en PDF-fil linje for linje for at forklare det grundlæggende i strukturen, men ingen af det bruger nogen GUI-værktøjer. Didier har også en [skabelon] (http://blog.didierstevens.com/programs/pdf-tools/) til [010 Editor] (http://www.sweetscape.com/010editor/). 010 har et stærkt ry, og du kan prøve det gratis i 30 dage

@amccormack Stor kommentar, tagredigering og god skrivning - jeg læser det nu. Interessant er det at overbevise mig om, at det værktøj, jeg leder efter *, skal eksistere - selvom det kun er kommercielt, hvilket jeg ville betale for, hvis det var godt. Jeg plejede at tænke, at store værktøjer normalt er tekst / kommandolinjebaserede, men tilfælde som dette får mig til at indse, at et billede undertiden er mere end 1.000 ord værd. Selv med større kompleksitet end SWF-filer er der stadig en struktur, der kan drage fordel af et sådant værktøj.

Ikke vedligeholdt siden 2006, men stadig et interessant værktøj: http://multivalent.sourceforge.net/

Https://github.com/qpdf/qpdf kan også hjælpe, det kan konvertere pdf'en til et mere menneskeligt læsbart format på kildeniveau.

Jeg kan ikke længere få adgang til @amccormack's blogindlæg under linket i hans kommentar; Jeg finder det her med en lidt ændret URL: https://amccormack.net/2012-01-22-anatomy-of-a-pdf-document.html Tak!

$ mutool info Bug691816.pdf Bug691816.pdf: PDF-1.5Info-objekt (49 0 R ): << / ModDate (D: 20101122114310-08'00 ') / CreationDate (D: 20101122114251-08'00') / Titel (ID1561x.indd) / Creator (Adobe InDesign 1.5.2) / Producer (Adobe PDF Library 4.16 ) >>Sider: 1 Hentning af info fra side 1-1 ... Mediekasser (1): 1 (54 0 R): [0 0 612 792] Billeder (1): 1 (54 0 R): [JPX] 300x161 8 bpc Idx ( 58 0 R)

$ mutool portfolio ZUGFeRD_1p0_BASIC_Einfach.pdf x 0 ZUGFeRD- invoice.xml $ head ZUGFeRD-invoice.xml<? xml version = "1.0" encoding = "UTF-8"? ><! - Nutzungsrechte ZUGFeRD Dataformat Version 1.0, 25.6.2014 Beispiel Version 29.09.2014 Zweck des Forums for elektronisk R eV („FeRD“) er ua die Schaffung und Spezifizierung eines offenen Datenformats für strukturierten elektronischen Datenaustausch auf der Grundlage offener and nicht diskriminierender, standardisierter Technologien („ZUGFeRD Datenformat“)