MarkItDown¶
MarkItDown è una utility a riga di comando sviluppata da Microsoft per convertire file Markdown in HTML, PDF e altri formati, con supporto avanzato per la formattazione e l'integrazione di contenuti multimediali.
E visto che per gli LLM
il testo piano è il formato di input base, è prezioso e propedeutico poter convertire un PDF, un file Word, un Power Point, ecc. in testo piano markdown
per poterlo poi processare con gli LLM
.
Installazione¶
MarkItDown si installa come tool Python. Puoi scegliere tra installazione diretta o ambiente isolato:
Esempi di utilizzo¶
Per convertire un file PDF in markdown
:
Per convertire una pagina web in markdown
: