产品概述

Product overview

PDF转JSON

PDF转Markdown

RESTFul APIs

功能特点

product FEATURES

功能一

布局分析,分析识别页面上的标题、段落、表单、表格、页眉、页脚、链接等对象

功能二

OCR,对页面上以图片格式显示的文字、公式图片、矢量图形等进行识别,将识别的结果汇入 PDF 中对应的对象

功能三

数据提取,根据布局分析的结构进行数据提取,在提取过程中根据PDF标准进行校正

功能四

格式转换,对提取的数据进行格式转换,按照用户需要转成 JSON 或 Makrdown 格式,输出给用户或推送到下游系统

功能五

人工介入,对识别不准的地方可以人工介入对参数进行校正,从而得到正确的结果

功能六

智能学习,对于人工介入参数校正的结果进行自动整理,作为样本对识别模型进行训练,让系统越用越好

典型场景

TYPICAL SCENES