Unstructured

Toolkit for loading and partitioning documents (PDFs, HTML, PPTX, images) into clean text/chunks with metadata for downstream NLP/RAG.

document-parsing-frameworksRecently released

Hero Score

Popularity

Performance

Ecosystem

Maturity

Dev Experience

⭐ 15,125 stars⬇ 1.2M downloads/wkFirst release: Sep 2022Last release: Jul 2026

Async Support: NoPlugin Extensions: HighSpeed: MediumDoc Quality: HighLearning Curve: Medium

• Supports 25+ document types (PDF, HTML, Office, images) with layout-aware extraction
• Semantic chunking with rich metadata (page numbers, element types) ready for RAG
• Multiple partitioning strategies (fast, hi_res, ocr_only) for speed/quality tradeoffs

• Heavy optional dependencies (OCR libs, ML models) with platform-specific quirks
• Open source version has reduced performance; not recommended for production use
• Hi_res strategy is slow on CPU with no GPU support in open source