
图1 系统登录界面

图2 系统功能
■ 高春芸
国家统计局嘉兴调查队建立数据网采系统,通过服务器后台搭建运行程序,前端操作界面简化运行方式,进一步提升爬虫技术运用于统计调查工作中的实效。
建设背景
爬虫技术是指按照特定程序,可以在短时间根据用户需要快速抓取相关数据信息,有效满足统计调查与分析的需求。目前全国多地均有开展爬虫技术运用于统计调查的探索,如南京队运用网络爬虫技术抓取小区或村所属街道,与二手网签数据进行匹配性分析;绵阳队运用爬虫技术开展旅行社收费价格的程序定时自动收集,减轻了工作负担,确保了数据质量;温州队编写大宗商品价格走势图爬虫小程序,自动抓取生意社网站大宗商品价格走势图,为精准评估价格走势和把握市场预期提供重要参考。
但各地爬虫技术运行方式、运转环境、爬取内容、结果使用各有不同,研究耗费资金、精力较多,成果转化较为依赖技术人员,复制、推广难度较高。为此国家统计局嘉兴调查队在原有服装商品价格爬取技术的基础上进行优化升级,开发建设数据网采系统,简化爬虫技术运用方式,通过后台服务器搭建爬虫运行程序,稳定数据爬取路径和内容,前端系统界面仅需点击下达指令,即可实现对指定网站指定商品网络价格等信息的实时采集和一键导出,便于爬取数据直接运用于统计调查业务工作。
系统功能
嘉兴队数据网采系统分为用户管理、数据采集管理、查询管理三大模块,其中用户管理模块中系统账户可开通各级账户,设置省/市/县层级用户管理权限,管理和重置密码等,省级账户可查看市/县数据爬取结果,市/县账户仅可查看本级账户数据;数据采集管理模块可实现爬取网站、关键词、爬取数量选择,主题任务设置等功能,用户可选取特定网站,爬取指定商品的网址、名称、标价、到手价、销量(评价数量)、截图等信息;查询管理模块可分类储存爬取的网页信息和截图,并按照主题任务、时间序列等进行数据查询和Excel导出。
系统特点
一是运行简便,前端数据网采系统页面通过web形式运行,运转不受电脑配置和性能影响,并根据统计业务人员使用习惯设置功能按钮,如可选取多个爬取关键词,并设置为主题任务,后续可反复开启该主题任务,进行相同内容的数据爬取。爬虫程序搭建在后台服务器端,数据爬取过程无需依赖专业信息技术人员,以简单便捷的运行方式促进系统的使用和推广。
二是便于核查,除以往页面信息爬取外,还可实现网站页面截图存储,业务人员可通过比对爬取网页数据信息和储存截图,进行数据核查和溯源,解决了以往网络页面变动频繁,爬虫技术爬取数据难以核查的难点。
三是注重规范,为使爬虫技术爬取信息符合业务制度规范,对爬取路径、爬取内容进行了规范化设置,如爬取商品收货地址选择为用户所处地区,爬取价格包含原价和到手价,通过规范化处理方便爬取数据的后续清洗、运算和使用。
后期展望
目前嘉兴调查队数据网采系统可爬取网站较少,爬取内容尚不够丰富,后续将根据业务需求持续增加可爬取网站页面,丰富数据来源,进一步提升平台效用。目前平台可进行网络数据的收集、整理、存储和标准化导出,后续将继续增加数据清洗、奇异值剔除、数据运算等功能,并通过图表等方式可视化展示爬取内容。