日前,由近200位人工智能领域知名专家、学者参加的2023第十二届中国智能产业高峰论坛(CIIS 2023),在江西南昌举行。
高峰论坛期间,上海静安区人工智能、大数据企业合合信息公司与中国人工智能学会(CAI)模式识别专委会共同承办了《多模态大模型与文档图像智能理解》专题论坛,来自清华大学、华中科技大学、复旦大学、华南理工大学、百度、科大讯飞、合合信息等高等院校、研究机构和企业的技术专家,围绕行业焦点议题展开了探讨。
专题论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像与训练模型的探索与思考》演讲中表示,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的“token荒”的问题。
文档图像技术已走过百年历程,但文档图像质量退化、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题,如今仍是工业化落地中的难题。丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力,对于文档图像处理问题的解决具有重要的研究价值。
t“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析、理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。
t大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。丁凯表示,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,在端到端提升文件处理效率、准确率的同时,有效保障用户及企业数据安全。