Vai al contenuto

MarkItDown

MarkItDown è una utility a riga di comando sviluppata da Microsoft per convertire file Markdown in HTML, PDF e altri formati, con supporto avanzato per la formattazione e l'integrazione di contenuti multimediali.

E visto che per gli LLM il testo piano è il formato di input base, è prezioso e propedeutico poter convertire un PDF, un file Word, un Power Point, ecc. in testo piano markdown per poterlo poi processare con gli LLM.

Installazione

MarkItDown si installa come tool Python. Puoi scegliere tra installazione diretta o ambiente isolato:

pip install 'markitdown[all]'
uv tool install 'markitdown[all]'

Esempi di utilizzo

Per convertire un file PDF in markdown:

markitdown path-to-file.pdf > document.md

Per convertire una pagina web in markdown:

markitdown https://example.com > page.md