推动更多新技术融入征管场景

2025年08月06日 版次:06        作者:王瑱

算法是计算机科学中的核心概念之一,通过逻辑组合与数学建模提高程序效率,例如数据处理、统计分析等场景均依赖算法优化。在实际应用中,算法的效率和性能十分重要,因为它们直接影响计算机程序的运行性能和资源消耗。笔者结合实践探索,谈一下将机器学习算法等人工智能技术,应用于数据治理、智能监管、场景创新等方面的体会。

预警“用数”风险,确保身份安全。如何确保每一次的设备登录安全可靠,使用过程行为规范?解答这道难题,可考虑采用“孤立森林”异常检测算法。“孤立森林”异常检测算法是一种无监督机器学习算法,它的运行思路可以理解为,通过分析行为特征,在一群人当中找出个别“不正常”的“家伙”。这里并不需要提前定义何谓“不正常”,而是通过数据本身的分布来孤立出“异常”,如在设备登录场景中可以揪出那些半夜登录、异地登录等不正常行为。围绕“用数”安全管理,税务部门可尝试对安全管控系统以及终端数据防泄密软件中的所有数据资产进行梳理、分析、归集,通过采集用户的系统登录和节点使用等行为数据,运用“孤立森林”异常检测算法,实现对用户异常操作行为的快速识别和预警防范,避免严重违规事件发生。比如,上海基层税务部门通过分析以往的个人所得税管理典型案例,模拟某税务人员严重违规场景数据,验证确认该算法能快速锁定违规操作,且对每一条违规行为的准确识别率较高,可以实现对未知“用数”风险的事前预防。

提高“管数”本领,实施智能监管。如何从海量的外部信息中,准确识别税务部门所需要的数据?在一些场景下,可以探索运用“CNN卷积神经网络”算法。这种深度学习算法能够“看懂”、提取图文数据里的关键特征,并学习其中的规律,类似人类视觉神经系统的工作模式。在实践中,通过这一算法,能够准确构建管理风险指标模型,提高精准识别率。比如,上海基层税务部门运用该算法清洗了外汇管理局共享的逾百万条对外支付数据,识别出对外支付的收款方身份,对收款方名称为非自然人的识别率达到92%以上,在此基础上结合税务部门掌握的对外支付扣缴申报、支付备案等信息进行比对,筛选出未扣缴申报的疑点数据。使用这一算法识别与人工识别相比,效率大幅提升,风险防控更加精准高效。

打造“供数”标签,助力税收分析。如何形成符合行业特征、产业特点和企业特色的优质税源标签体系,为税收经济分析服务?可以探索运用多种“半监督学习”算法。这种算法利用少量标注数据和大量未标记数据共同训练模型,其核心价值是在当数据标签稀缺时,通过合理利用未标注数据来强化标签与特征的关联,从而降低标注成本,提高数据利用效率。比如,上海基层税务部门在已有的发票和申报信息等内部数据基础上,拓展纳入了外部专利、新闻报道等第三方数据,采用“半监督学习”算法模型,对海量数据进行清洗、打标、脱敏等技术处理,最后形成绿色低碳产业、独角兽企业、瞪羚企业、平台经济、专精特新等类别标签,以及初创期企业、成长期企业等属性标签。与传统的国民经济行业等标签相比,这些非标准化的标签能够为深度开展税收分析提供更多维度的数据支撑,推动税源管理从“经验判断”转向“数据透视”。

(作者单位:国家税务总局上海市杨浦区税务局)