
Unstructured
其他工具RAG框架开源12.0k Stars·
Unstructured 是一个非结构化数据处理工具,支持从各种文档格式中提取结构化信息
框架介绍
Unstructured 是一个非结构化数据处理工具,支持从各种文档格式中提取结构化信息。适用于数据预处理和知识提取。
核心特性
1
多格式支持
支持 PDF、Word、HTML 等格式
2
结构化提取
提取结构化数据
3
分区处理
智能文档分区
4
管道处理
灵活的处理管道
应用场景
数据预处理
预处理非结构化数据
知识提取
从文档提取知识
ETL 流程
集成到 ETL 流程