近日,由中国图象图形学学会青年工作委员会发起的“第十九届中国图象图形学学会青年科学家会议”在广州召开。
会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请各界专家与青年学者进行总计超200场的高水平学术深度交流,促进图象图形领域“产学研”合作。
在会上,来自合合信息的丁凯博士在“垂直领域大模型论坛”作题为《文档图像大模型的思考与探索》的报告,分享了关于文档大模型的最新研究成果以及对未来的展望。
他指出,尽管以Chat-GPT为代表的大语言模型和GPT4-V多模态大模型在文档领域取得了显著成果,但OCR文档图像识别等领域的核心问题仍然存在。如场景及版式的多样性、采集设备的差异性、用户需求的多样性、文档图像质量退化、文字检测及版面分析的困难、非限定条件下的文字识别率低以及结构化智能理解能力差等。
为了解决这些问题,丁凯博士提出了对大模型的思考与探索,他认为,垂直领域大模型是未来的研究方向,需要深入探索并克服相关技术难题。通过“产学研”交流合作,有望推动图像图形领域的发展。