华体会平台-华体会(中国)

多模态大型模型在OCR领域的应用现状、挑战及展望

发布华体会平台：2023-10-12阅读量：

主讲人:刘禹良

主要内容:随着大型多模态模型的兴起，自然语言处理和多模态学习领域取得了重大突破。本报告分析了现有开源多模态模型在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的表现。定量评估显示，多模态方法在文本识别等方面可以取得令人鼓舞的成果，部分数据集甚至达到了业界领先水平。然而，与领域特定方法相比，多模态方法仍有明显的差距，这表明为每个文字任务量身定制的专门技术仍具有关键意义。通过探讨这些模型在文本图像智能领域的优势和局限，本报告旨在对文本领域应用多模态方法提供有价值的见解，同时为改进零样本多模态技术的新想法的开发和评估提供基础。

华体会平台:2023年10月13日上午09:30

地点:计算机与信息工程学院明理1-105