AI 日报

AI重塑媒体行业,凤凰卫视重磅入场AI数据赛道

  • By admin
  • Dec 04, 2023 - 2 min read



媒体人在2023年或多或少都有点“失业”焦虑——媒体人被认为是最可能被ChatGPT取代的高危职业之一。

面对人工智能的冲击,部分媒体选择以防御之态应对,保护自己的内容不受大语言模型的“侵略”。根据《卫报》的报道,CNN、纽约时报和路透社等多个媒体巨头在他们的网站上加入了新的代码,阻止OpenAI的网络爬虫工具GPTBot对平台内容的扫描。

然而,近日凤凰卫视在“数聚未来——凤凰大模型数据研讨沙龙”上正式推出“凤凰智媒AI数据业务”,发布首批“中文访谈对话数据集”和“正向价值对齐数据集”,还将推出以数据为中心的一站式AI训练平台,计划于近期开放内测。凤凰卫视执行副总裁兼运营总裁李奇在致辞中表示,凤凰卫视作为一个立足香港、背靠内地、面向全球发展的国际媒体,也将是人工智能时代的积极参与者,期望发挥凤凰的媒体平台优势,为产业界建立一个共建共享的数据平台,共同推进人工智能的快速发展。

在媒体行业感受到人工智能带来的高度生存威胁之际,凤凰卫视尝试在“桌上”找到自己的位置。

数据对于大模型训练有多重要?

AI的三大基石:数据、算力和算法。

数据是人工智能的学习资源,没有学习资源,任何智慧体都很难学习和提升

数据的开发与应用并非易事。在香港科技大学(广州)协理副校长熊辉看来,中国大模型面临的真正挑战是数据。虽然国内大模型在中文数据上占有优势,但整体的中文数据在整个人类知识的数据体系中仅占很小一部分,中国大模型如何能够真正做到跨语言体系、跨文化体系,构建起高价值、高质量、全方位的数据集,仍然面临较大挑战。

李奇将数据比作AI时代的石油资源,数据的资源越好,模型的准确度就越高。而数据的开发与应用都将是一个系统工程,需要产业界无数企业共同参与。

凤凰卫视早已敏锐地认识到数据对于人工智能的重要性。凤凰卫视融媒体研发副总监经理冯伟就表示,在ChatGPT引领的AIGC浪潮之前,凤凰卫视在与众多互联网大厂和科研院校的合作交流中,他们收到许多对高质量数据需求的反馈——没有高质量的数据,很难在特定垂直行业的应用场景中实现算法和模型性能的突破。

高质量的数据对于人工智能的益处是多方面的。首先,它能够显著提高人工智能的准确性和可靠性,使模型在实际应用中更加安全。其次,高质量的数据可以提高模型的鲁棒性,使其在各种场景下都能表现出色,甚至是在训练过程中未曾遇到过的场景。此外,高质量的数据还可以帮助人工智能模型克服算法的局限性,通过数据中的隐含规律来指导模型的学习过程。

因此,在AIGC浪潮的驱动下,凤凰卫视着手入场AI数据赛道。

传统媒体如何连接AI?

近百年来,媒体经历了数次变革。

广播和电视的普及、互联网的出现、社交媒体的兴起……每一次新技术的出现,都给媒体行业带来深刻的变革,这些变革不仅改变了媒体行业的运作方式,也深刻影响了人们的生活方式和信息传播的方式。

人工智能技术来势汹汹,媒体已然嗅到了变革,甚至是危机的气息。拥抱还是防御,对各媒体都是一个问题。

而凤凰卫视的选择已然明了。

此次发布的“中文访谈对话数据集”基于凤凰卫视访谈类节目生成,规模达百万轮次,连续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以权威学术团队的研究成果为指导,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。

除上述两个数据集外,凤凰数据还有多个数据集正在加工生成中,包括面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集等。同时,凤凰数据也在同相关数据伙伴共同构建具有高价值和稀缺性的高质量数据集,包括华语图文对数据集、华语书籍数据集和网络流行语数据集。

除了高质量数据集产品外,凤凰数据还将推出以数据为中心的一站式AI训练平台,计划于近期开放内测。平台将与高质量数据集市实现互联互通,确保数据在平台内的安全使用。平台也将提供一系列以数据为中心的服务,包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。

凤凰卫视一直以来以其客观中立的节目内容受到广泛认可,这些数据为大模型企业提供客观、公正、可靠的数据支持。其一站式解决方案除高质量数据外,配套提供AI模型训练与优化平台,降低了凤凰卫视AI数据使用门槛。

华为云EI产品部部长尤鹏表示,华为希望和凤凰卫视一起共建数据黑土地,共同探索产业界自下而上的数据合作路径和商业模式,共同构建大模型的“数据-算力-商业”飞轮,推动数据产业发展。

媒体数据对大模型训练的价值不言而喻,但对凤凰卫视而言,这一系列举措的价值在哪儿?

入局AI数据赛道,价值几何?

凤凰卫视大刀阔斧地进军AI数据赛道,比起今年七月美联社与OpenAI的合作,是媒体行业探索生成式AI领域的更进一步。

此前,大模型同新闻组织、书籍作者、社媒平台之间在内容版权方面矛盾颇多。今年6月,超过4000名作家联名向OpenAI、谷歌、微软、Meta和其他AI开发者的首席执行官们致信称,科技巨头们在构建聊天机器人时存在侵权行为,那些AI机器人“模仿并复述”他们的语言、风格和思想。

在技术偏早期野蛮生长的阶段,一定会面临许多诸如内容版权之类的问题。冯伟在接受采访时表示,就像当年新闻平台方的出现同媒体机构和其他内容创作者之间也存在版权或知识产权的争议和矛盾,但逐渐也形成了新的共识与规范。凤凰卫视相信,随着技术的发展、各方的协调以及法律法规的不断完善,AIGC行业最终也会往合规的方向健康发展,逐渐形成一个有序、共赢共生的大生态。

除了在探索有序、共赢共生的大生态中为媒体争取更多话语权,凤凰卫视更希望以积极主动拥抱世界发展趋势的态度,为中华文化的传播提供AI时代的解决方案

入场AI也是凤凰大刀阔斧创新国际传播的重要举措。凤凰卫视作为海外最大的华语媒体集团,一直都为中国世界对话中国世界交流搭建平台。正像凤凰卫视执行副总裁兼运营总裁李奇致辞中所说,在AI时代,凤凰卫视也同样不会缺席。冯伟表示,高质量的数据语料库是AI时代承载中华文化的新载体,凤凰数据的核心目标是是推动AI数据领域华语数据的丰富与共享,同时为中华文化的传承与传播提供AI时代的探索思路和解决方案,让AI与中华文化认知对齐更简单。

写在最后

据悉,2024年,凤凰数据计划分三批发布更多高质量数据集,并正式上线AI训练平台。同时,凤凰数据还将举行“Link+科技峰会”和“AI数据挑战赛”等系列活动,连接各界,解决行业痛点,共同推进AI与华语文化的认知进程。面向高校及科研院所,凤凰卫视发布了“凤凰智媒AI筑巢计划”,提供部分数据集的免费授权,以助力学术研究和创新。凤凰AI数据官网于发布会当天正式上线,为行业客户提供数据集试用下载服务。

在科技的滚滚车轮之下,有人坐以待毙,有人主动出击。凤凰卫视在AI赛道的一系列举措是面临危机的媒体行业一次非常有借鉴意义的主动探索。同为媒体,我们期待看到凤凰卫视与全球合作伙伴共同推动AI数据领域的创新与发展。