掌握人工智能时代的“语言”

2024年04月10日 版次:06        作者:姜志彦

ChatGPT、文心一言、通义千问等大语言模型,以其流畅对话、文本生成等功能,让人们感受到人工智能在自然语言理解和生成方面的强大能力。笔者认为,大语言模型会给知识检索、税收宣传、数据分析等工作,带来前所未有的效率提升和智能化体验。

知识检索,辅助快速学习。通过模拟人类语言逻辑,大语言模型能够将检索到的大量碎片化知识进行整合、梳理,形成系统化的知识框架。向模型提问,就可以得到涵盖广泛业务领域的专业知识解析,从而大大提升知识学习和吸收的效率。去年,上海浦东税务大数据团队尝试应用大语言模型,对增值税发票品名进行推断,用于发现上下游企业变票风险,样本测试结果基本与人工核查结果一致,而且相比人工核查工作量减少了70%。

创意实现,助力税收宣传。大语言模型的文字和视频编辑生成能力,为创意的实现提供了高效的工具。例如,大语言模型可以依据新闻要素、宣传主题、政策要点、目标对象等,生成详细的新闻报道、税收宣传剧本初稿等。对于拍摄素材,大语言模型可以从大量的视频素材中挑选合适片段,按照预设逻辑和节奏进行拼接,生成初步的视频成品,简化视频编辑流程。

代码生成,提升工作效率。大语言模型能够提升非专业人士的开发能力,提高工作效率。其广泛应用之一是生成各种编程语言的计算机程序,只要有基础的编程知识,就可以在其帮助下,完成复杂计算过程的代码编写。税务干部日常工作中,经常需要处理大量的Excel表格等,汇总数据、制作图表均需花费时间、精力。若使用大语言模型定制专门的程序,不需要花费大量时间,就可以实现数据的自动汇总、图表的自动制作。

顺应大语言模型快速发展趋势,笔者认为税务部门在其应用中需关注以下几方面问题。

注重数据安全性。现在可以使用的大语言模型均基于互联网平台,在与大语言模型互动时,输入的内容会被模型处理并据此生成回答,任何提问内容都可能被储存、分析或在未来模型迭代中用作训练数据。因此,在与大语言模型交互过程中,应谨防信息泄露的风险。

不过,目前各大互联网巨头相继推出开源模型,使一般组织进行私有化部署成为可能,或许不久后,税务部门可以在更安全的环境下搭建属于自己的大语言模型开发环境。

注重知识精准度。大语言模型尽管具备广泛而深厚的通用知识基础,但针对专业化知识,例如税务部门内部的知识,需要对其进行更为精准、动态、个性化的训练与优化。应在安全环境下,构造专门知识库,将相关知识传递给大模型处理,提升大模型精准回答问题的能力。

判断业务真实性。大语言模型卓越的生成能力,无疑给税务部门在进行业务真实性判断方面带来了新的挑战。大语言模型能够生成高度拟人化且连贯的文本,这使得利用技术手段伪造文件、报告、信函等业务相关材料变得更加容易,增加了辨别真伪的难度。最近OpenAI推出的视频生成模型Sora,能够基于文本提示生成逼真的视频内容,这意味着“眼见也不一定为实”。例如,香港警方近期披露了一起涉案金额高达2亿港元的多人AI换脸诈骗案。对此,税务部门应开展前瞻性研究,探索先进的技术和算法,识别由大语言模型生成的虚假信息。

(作者单位:国家税务总局上海市税务局第三税务分局)