智能内容风控系统赋能媒体生产路径探索
全媒体时代,新闻媒体面临着新的内容安全挑战。上游新闻自主研发了重庆日报报业集团智能内容风控系统,有效解决了内容安全难题,衍生了新的商业模式,赋能媒体深度融合。本文主要从新闻领域内容安全现状、系统概述、规划设计方案、相关技术指标、安全设计、应用实践、系统效益七个方面进行阐述。
新闻领域内容安全现状
《中国新闻事业发展报告》显示,截至2021年12月31日,互联网新闻信息服务单位总计3208家,共计12625个许可服务项,其中,互联网站1846个、应用程序2910个、公众账号7671个。开放的网络环境下涌现出大批媒体资讯平台,国内主流媒体展开内容风控服务探索,同时面临着新的挑战。
一是没有权威的敏感词错别字词库,内容风控服务水平参差不齐;二是技术能力相对薄弱,没有迅速接入最新的人工智能技术;三是在多级审核的流程构架下,审核人员的人力成本较大。基于以上情况,上游新闻以解决行业内容安全痛点为出发点,打造了智能内容风控系统,全面落实意识形态工作责任制,推动形成良好网络意识形态生态。
随着媒体技术变革的飞速发展,传媒生态发生了巨大变化,呈现发布主体多元化、内容信息碎片化、渠道载体多样化、发布稿件海量化等复杂特点。
为了解决媒体生产全流程内容安全风险把控,我们建设了上游新闻内容风控系统,该系统能够快速有效地进行内容问题审校检测,满足各媒体机构、企业及下属平台在文字、图像、视频方面的安全审校检测,实现各内容载体内容安全监测的智能化与人工审校相结合,使整个内容生产的运作流程始终处于高可靠性、高流程化的运作和风险监控中,确保内容的安全生产,提升媒体的公信力、影响力。
系统规划设计方案
总体思路
重报集团智能内容风控系统由三大产品线组成:应用平台、开放平台、数字出版物审校Word(文字处理软件)插件。
应用平台:采用大数据、自然语言处理、知识图谱等多种先进的技术手段,通过自动化、智能化的方式对新闻内容进行全方位的风险评估和监测,具备智能采集、文字智能审校、图片智能审校、视频智能审校、智能风险评估、数据可视化以及自定义规则等能力。对检测结果进行综合分析,生成图片、表格等形式的新闻内容的智能风险评估报告。应用平台还支持用户自定义监测规则和报警机制,满足用户不同的监测需求和业务场景。
上游新闻智能内容风控系统产品架构图。
开放平台:提供多个API接口(应用程序编程接口),让用户可以根据实际需求进行选择和调用,提供多种SDK工具(软件开发工具包),方便用户在不同开发环境下使用,采用标准化的数据格式,用户可与平台进行数据交互和对接,在数据传输和存储过程中采用多重加密和安全措施,确保数据安全。
数字出版物审校Word插件:通过调用API接口开发了可安装运行的Word插件。以批注的形式实现可视化展示。
技术方案
重报集团智能内容风控系统,运用先进的深度学习和知识图谱技术,设计专有模型和数据加工技术,识别文本校对过程中面临的拼写、语法以及各类常识错误,用于采编各阶段的文本自动审校工作,解决人工审校耗时费力、经验知识不易重复的难题,大幅度提高审校效率和质量。
关键技术包括四个方面:基于深度学习的端到端文本校对模型、基于大规模知识图谱的常识检测技术、术语上下文语义一致性计算技术以及大规模文本校对数据集构造技术。基于各种编辑器的精准文字定位算法,解决返回错误信息在编辑器中文字不能定位、无法清晰找到差错所在的问题。
在人机结合流程方面,该系统采用了创新的“智能机审+专业人工”模式。这种模式不仅提高了审核速度和准确性,还弥补了传统人工审核不准确和机审功能单一的缺陷,形成了完善的人机结合审校流程。
该系统由SaaS(软件即服务)化应用平台、开放平台和数字出版物审校Word插件三大产品线组成。这种架构解决了市场产品应用场景单一的问题,并可根据不同应用场景和需求进行灵活组合,满足客户的定制化需求。
通过集成大数据、自然语言处理和知识图谱等技术能力,实现对文本错误风险、内容不规范表述等精准识别功能。不仅达到了智能检测的目的,还为内容质量提供了有力保障,有效降低了人工审校成本。
自研的定位算法能够过滤掉无效的HTML(超文本标记语言)代码,将用户非标准的数据转换为标准数据,实现“标准-非标准-标准”的转换。不仅解决了编辑器中文字不能定位、无法清晰找到差错所在的问题,还可以确保用户的原始数据不受损坏。
相关技术指标
智能内容风控系统能够做到精细检测、精准检测,得益于背后成熟的数据指标支撑以及适用于中文的语言检测规范。依托十亿级“错误-正确句子对”数据库,通过对比和分析这些句子对,能够更加准确地识别和纠正各种语言错误,从而提高内容的质量和准确性。
构建大规模的常识知识图谱,覆盖多个实体类型,如人物、机构、地域、朝代、古诗文作品、产品、品牌等,并包含近百种常见的关系类型。知识图谱的存在能帮助机器准确理解内容含义、上下文语境,从而更好地检测和纠正各种语言问题,提供更加全面和深入的检测服务。
依据国家和行业标准、各类权威文献及人民日报、新华社等媒体权威性报道数据,应用关联规则挖掘方法进行统计分析,提取潜在的时政规范用语候选集,通过组织行业专家核定审校,以双盲方式进行确认,最终形成时政规范用语数据库,由此提高检测数据的准确性和权威性。
注重行业编校质量经典案例积累。通过收集整理《图书编辑校对实用手册》《作者编辑常用标准及规范》等资料,为系统提供实际的参考和借鉴,有助于提高检测的针对性和实用性。
基于《语言文字规范标准》《通用规范汉字表》《语言文字规范使用指南》《现代汉语词典》《辞海》《中国成语大词典》《第一批异形词整理表》《中国人名地名大辞典》形成语言基础数据库,为中文检测提供了标准的语言基础和依据。
系统安全设计
安全管理
建立了完备的网络安全保障制度和标准操作规范,统一进行操作审计、职权管控、安全认证,统一运维入口,统一自然人与主机帐号间的权限关系,统一运维操作审计管控点。做好网络安全建设和整改,开展信息安全等级保护测评工作,确保智能内容风控系统的安全性和可靠性。
安全设计
网络安全设计。组建VPC(虚拟私有云)虚拟专用网,采取区域划分和安全逻辑隔离管理,分别为各核心业务模块、开发环境、测试环境创建独立的安全组,创建详细的VPC内部访问控制策略。部署云WAF(一种网络安全服务)、云防火墙、云安全中心、SLB(服务器负载均衡)、NAT(网络地址转换)、VPN(虚拟转用网络)网关等安全服务组件,共同组成互联网区域边界,提供访问控制、边界防护、入侵防范和恶意代码防范等安全防护能力。部署SSL(传输层安全协议)安全证书,采用HTTPS(超文本传输安全协议)方式进行访问,保障数据传输的完整性和保密性。
云平台基础安全架构示意图。
主机安全计算。对主机安全身份鉴别、访问控制、安全审计、入侵防范、恶意代码防范部署安全措施。启用身份鉴别密码、账户锁定策略,同时采用两种以上鉴别方式验证登录用户身份,防止网络暴力破解口令;建立双向身份验证机制,验证云计算平台和管理终端设备;限制远程终端连接服务器的方式和地址范围,关闭多余的主机对外端口、服务;严格限制应用用户权限,减少特权使用频率;使用安全组建立云计算平台内访问控制策略,限制虚拟机之间非授权访问行为。
漏洞修复和木马病毒防护。部署云安全中心(态势感知),实时识别、分析、预警安全威胁,通过防勒索、防病毒、防篡改、合规检测等安全能力,实现威胁检测、响应、溯源的自动化安全运营闭环;实时检测常见的网络入侵行为对检测到的安全事件进行告警,对网络上突然出现的紧急漏洞提供应急检测和修复接口。
数据安全备份。部署云数据库灾备数据库,同时设置跨可用区域的数据库自动备份策略。启用云主机快照本地备份和异地同步策略,将数据库、NAS(网络附属存储)数据存储、OSS(对象存储服务)对象存储的本地备份同步至异地区域,构建数据异地灾备环境。
系统应用实践
对内应用情况
与重庆日报报业集团下属重庆日报、华龙网、上游新闻、今日重庆、重庆法治报和重庆轨道传媒6家新闻单位达成合作协议。一年来审读重庆各级媒体160个平台50万篇稿件,发现处置各类隐患2万余处。在党的二十大报道审读工作中,对1万条稿件进行巡查审读,发现处置各类隐患600余处,向媒体报送预警提示信息100余条;在对第二十五届重庆新闻奖参评作品审读工作中,完成1700余件参评作品的审读;2022年8月,承接2022中国国际智能产业博览会线上展览审校服务;参与2022年重庆市报纸及新媒体抽检专项工作。
上游新闻是西部地区最早上线的综合新闻门户客户端,曾入选国家和重庆两级新闻出版改革项目库。上游新闻年产稿件量30余万条,全网浏览量累计近1000亿。智能审校上线以来,完成20余万次稿件审校,检测错误数近10万。
重庆日报年生产稿件量30万余条,全网浏览量日均1000万。智能审校上线以来,完成6万余次稿件审校,检测错误数近3万。
对外应用情况
目前,智能内容风控系统为清华大学、重庆市记协、重庆市新时代文明实践指导中心、重庆市总工会、重庆区县融媒体中心等多家单位提供内容安全审校服务。
系统效益
经济效益
智能内容风控系统上线以来,与多家单位签订了长期合作协议,带动营业收入数百万元。已获得计算机软件著作权登记证书、通过科学技术部西南信息中心查新中心查新验证,项目完成技术鉴定。
社会效益
赋能媒体内容生产,推动业界内容审核科学技术进步。系统通过“智能机审+专业人工”审核模式,彻底解决了传统人工审核速度慢、不精准,机审功能单一、无法全方位风控的弊端。这种创新模式不仅显著提高了审核速度和准确性,还实现了全方位的风险控制。该系统上线投入使用后,各项功能表现出色,满足了实际应用需求。这不仅大大减轻了人工内容审校的压力,而且显著节省了人力成本,内容生产的质量和安全性得到了有效保障,为媒体行业的内容生产注入了新的活力,推动业界内容审核科学技术进步。由此衍生出来的商业模式,成为媒体行业一个全新的经济发力点,有助于实现价值变现。
获得广泛好评。中宣部传媒监管局负责人评价该系统:探索值得借鉴推广。重庆市委宣传部评价该系统:在确保意识形态安全和促进重庆新闻出版事业高质量发展中发挥了积极作用。
此外,重报集团智能内容风控系统荣获2023年王选新闻技术一等奖;基于智能内容风控系统打造的审读中心融媒体智能审读系统获第26届重庆新闻奖应用创新类一等奖;依托于智能内容风控系统组建的重庆传媒审读中心获评首届重庆报业深度融合发展创新案例,已被重庆市委宣传部挂牌为重庆传媒审读中心,并被市委网信办挂牌为重庆互联网审读监测中心。
结 语
上游新闻作为主流媒体,在把控新闻内容安全生产方面始终坚持严谨专一的理念,积极为行业提供解决方案,为媒体内容生产赋能,努力打造行业标杆。在未来,上游新闻将不断推陈出新,为媒体行业的繁荣和发展贡献更多智慧和力量。