文件处理
文件名提取
文件名提取需判断文件的情况,已经按照要求命名例子:
情况一:文件已经按照要求命名
使用「附件名提取」字段类型

情况二:文件没有按照要求命名
使用AI智能提取

文件内容提取
内容提取前需要对文件进行一个简单的判断,及文件是图片还是可以被提取的文字。 例如:
word格式的文件一般都包含可以被提取的文字,但图片中的文字无法直接提取。
图片格式的文件中文字无法直接被提取
PDF格式中的内容是图片则无法直接被提取,文字内容则可以被提取
判断的目的是我们需要选择不同的识别工具,包含图片内容的文件需要使用光学识别技术对文件进行提取,而文字内容可以直接识别到文件的文字信息,提取相对简单。在对于需要识别图片信息时,我们会选择使用pdf转文本这个功能,它可以将图片中信息提取出来。


在识别普通文字PDF、.docx、.txt、Excel、json、markdown等文件时,可以使用AI进行文件内容的提取。



在使用「PDF转文本」时,因为需要用到OCR服务,需要开启相应的付费功能,在初学阶段可以领取试用资源来使用。
关键信息提取
关键信息提取于文档内容提取的区别在于,文档内容提取是提取原始文件的内容,而关键信息提取是提取文档内容提取的内容。


在需要对文件中提取特定的相关内容时,使用「信息提取」会根据设定的关键词,参考示例,以及提取要求来输出。
可视化输出
在一些文档中涉及事件以及人物关系时,我们可以从中提取三元组,以及输出时间轴或关系图。

最后更新于