Product overview
product FEATURES
布局分析,分析识别页面上的标题、段落、表单、表格、页眉、页脚、链接等对象
OCR,对页面上以图片格式显示的文字、公式图片、矢量图形等进行识别,将识别的结果汇入 PDF 中对应的对象
数据提取,根据布局分析的结构进行数据提取,在提取过程中根据PDF标准进行校正
格式转换,对提取的数据进行格式转换,按照用户需要转成 JSON 或 Makrdown 格式,输出给用户或推送到下游系统
人工介入,对识别不准的地方可以人工介入对参数进行校正,从而得到正确的结果
智能学习,对于人工介入参数校正的结果进行自动整理,作为样本对识别模型进行训练,让系统越用越好
TYPICAL SCENES
将 PDF 解析后,送入大模型训练平台,训练私域、专有的大模型
将 PDF 解析后,作为 RAG 的基础数据,构建私域、专有的知识库
将 PDF 解析后,基于规则进行精准的数据提取
将 PDF 解析后,基于其语义和阅读顺序,经重构、组合生成新的文档