随着上市公司2024年中报披露高峰期的到来,海量财务报告的解读成为金融行业从业者面临的重大挑战。为了缓解这一压力,并提升人工智能大模型在财报分析中的准确性和效率,合合信息对其大模型“加速器”方案中的PDF文档解析技术进行了优化升级,旨在将非结构化的PDF内容高效转化为结构化数据,助力大模型实现从“泛读”到“精读”的飞跃。
PDF作为主流电子文件格式,广泛应用于企业财报、年报等重要文件的发布。然而,这些文件往往包含复杂的表格、图表、证照等元素,对AI大模型的文档解析能力提出了严峻考验。传统大模型在处理此类文件时,常因“理解力”不足和数据读取错误,导致关键信息丢失或误解,进而影响分析结果的准确性。
合合信息的PDF文档解析技术则通过多文档元素识别和版面分析能力,能够精准识别文档中的段落、公式、页眉、页脚等多种元素,并有效应对财报中常见的无线表、合并单元格、不规则行距等复杂版面问题。该技术不仅提升了表格结构还原的准确性,还能推断出人类阅读时的自然顺序,避免了机械排序带来的信息割裂,实现了真正的“所见即所得”。
据合合信息技术团队成员介绍,上市公司年报页数大多集中在200至300页的范围内,一个熟练的分析师可能在几天到一周的时间内完成对年报的基本分析,PDF文档解析工具最快能在1.5秒完成百页文档的解析,按8小时为一天工作时间计算,解析工具可帮助大模型在一日内对数千家企业的年报数据进行精准分析。随着无纸化办公、数字化趋势发展,PDF文档解析技术有望被应用于更广泛的场景。
目前,合合信息登陆科创板上市,并启动IPO申购。凭借其在智能文字识别及商业大数据领域的深厚积累和技术优势,合合信息正为全球C端用户和多元行业B端客户提供更加数字化、智能化的产品和服务。未来,随着技术的不断迭代和应用场景的持续拓展,合合信息有望在更多领域实现突破,推动人工智能技术的普及和应用。
责任编辑:kj005
文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com