文件处理

文件名提取需判断文件的情况，已经按照要求命名例子：

情况一：文件已经按照要求命名

使用「附件名提取」字段类型

情况二：文件没有按照要求命名

使用AI智能提取

内容提取前需要对文件进行一个简单的判断，及文件是图片还是可以被提取的文字。例如：

判断的目的是我们需要选择不同的识别工具，包含图片内容的文件需要使用光学识别技术对文件进行提取，而文字内容可以直接识别到文件的文字信息，提取相对简单。在对于需要识别图片信息时，我们会选择使用pdf转文本这个功能，它可以将图片中信息提取出来。

在识别普通文字PDF、.docx、.txt、Excel、json、markdown等文件时，可以使用AI进行文件内容的提取。

在使用「PDF转文本」时，因为需要用到OCR服务，需要开启相应的付费功能，在初学阶段可以领取试用资源来使用。

关键信息提取于文档内容提取的区别在于，文档内容提取是提取原始文件的内容，而关键信息提取是提取文档内容提取的内容。

在需要对文件中提取特定的相关内容时，使用「信息提取」会根据设定的关键词，参考示例，以及提取要求来输出。

在一些文档中涉及事件以及人物关系时，我们可以从中提取三元组，以及输出时间轴或关系图。

最后更新于1个月前