04

数字技术赋能投资统计 ——江苏局探索建立“投资项目凭证OCR审核识别系统” 2025年01月02日 中国信息报

  ■ 马丽

  自2021年起,江苏省统计局积极创新,在全国率先探索建立了“投资项目凭证OCR审核识别系统”,综合运用图像识别、自然语言处理、机器学习、数据挖掘等技术,对当月新增投资额2000万元以上项目投资凭证进行智能识别,实现了发票真伪鉴别、文字内容提取、数据一致性比对等功能,切实提升了统计部门审核投资项目凭证的时效和质效。

  按照固定资产投资统计报表制度相关规定,投资额应按照工程结算单(进度单)、会计科目或支付凭证等依据规范填报。因此,在事中数据审核环节,统计人员需要审核海量数据报送凭证,时间有限且要素审核点多,很难在有限的时间内有效保证准确度。

  据江苏局有关人员介绍,目前江苏在库投资项目4万余个,其中月度新增投资额2000万元以上的项目1500个左右,平均每个项目10张凭证,单纯人工审核,每个项目需要7-8分钟,全部审完耗时巨大。加之人工审核主观性较大且存在个体差异,导致专业性、时效性、准确性均难保障。除此之外,投资项目凭证还具备类型多、格式杂、清晰度不一的特点。只有借助高识别度的智能化数字技术,才能完成对投资凭证的批量化、标准化、专业化审核。

  针对以上现实难题,江苏局投资处探索运用数字技术,辅助开展凭证审核,切实提升工作效能,减轻人工负担。

  “投资项目凭证审核的重点,主要是辨别真伪、研判匹配度,比对金额能否支撑上报数据等。要满足以上业务需求,必须构建强大的图像识别系统,能够替代甚至超越人眼人脑,快速精准地甄别海量图片。”江苏局投资处业务人员表示。

  对此,江苏局投资处通过与信息技术公司合作,复盘分析了3个月共9547个项目的96948张凭证图片,运用机器学习、数据挖掘、人工智能等技术,开发建立了“投资项目凭证OCR审核识别系统”,综合采用图像识别、图像增强、表格还原、手写比对、二维码检测、去手写识别、公章检测和语义理解等多种底层技术算法,实现对投资凭证的准确识别和分类。目前,该系统每秒钟可识别24张图片,每月仅需2小时左右,完成首轮筛选后,再由业务人员对存疑凭证进行重审,大大提升工作效率,节省人力精力。

  “投资项目凭证OCR审核识别系统”于2022年6月起开始试运行,并于2023年开始正式投入使用。截至目前,系统已成功运行29个报告期,累计审核项目5万多个,识别图片70万以上,图片类型100余种。随着模型“投喂量”的不断增加,功能愈发完备、识别愈发精准、系统愈发稳定。

  江苏局有关人员表示,下一阶段江苏局将拟实现凭证附件“一键化”生成功能,与发改、工信等部门建立信息共享机制等,进一步减轻统计调查对象工作量。此外,拟将审核范围拓展至投资项目入库审核,辅助评判申报材料的规范性和真实性,切实提高工作效率和项目质量,把好投资数据“源头关”。条件成熟后,还将进一步拓展运用至房地产、建筑业、工业统计等领域,持续打造数字化助力统计现代化的生动样板。

本期报纸需要付费才能阅读,请您去网站购买