探秘「序列猴子」语音大模型:开启人工智能新时代-大浪资讯

admin72024-12-12 15:19:27

探秘「序列猴子」语音大模型:开启人工智能新时代

揭秘「序列猴子」:人工智能之巅再进一步

数界探索

   近日,出门问问(02438.HK)的语音大模型“序列猴子”再传喜讯,成功通过了上海市生成式人工智能服务的备案。这标志着出门问问在多模态大模型领域取得了新的进展,此前其多模态大模型已完成了相应的备案工作。

探秘「序列猴子」语音大模型:开启人工智能新时代

   此次备案的成功通过,不仅体现了「序列猴子」语音大模型在实际应用中的重大突破,也凸显了出门问问在多模态大模型领域的强大实力。

探秘「序列猴子」语音大模型:开启人工智能新时代

   「序列猴子」语音大模型基于出门问问自主研发并已完成备案的「序列猴子」大模型构建,运用了第六代TTS引擎MeetVoicePro及语音合成标记语言(SSML)技术进行开发。「序列猴子」语音大模型是一款通用型大模型,能够支持多种文本处理与语音应用功能。

   其中,文字转语音技术能够迅速将文字转化为自然流畅的语音,适用于制作有声读物、语音广告或自动播报系统;声音克隆技术通过对语音样本进行深度学习训练,生成极具自然感和表现力的合成声音;发音校正功能则针对发音不准或多音字提供校正服务,保证语音合成的准确性;智能文案创作工具则能为用户提供多样化的改写建议,助力用户更高效地完成文案创作。

   「序列猴子」语音大模型为AI在声音领域的探索开辟了新的路径,出门问问旗下的「魔音工坊」(海外版DupDub)正是这一创新的重要实践之一。「魔音工坊」作为一款集成了从文案创作到配音再到剪辑的一站式AI软件,已在全球范围内积累了超过800万注册用户,其中付费会员超过60万。该软件具备六大核心功能:软件配音、文字转语音、真人配音、声音商店、效率工具以及声音克隆和视频编辑,并且在声音克隆、声音搜索、情感合成/角色迁移以及声音合成等方面拥有四项独特的技术优势。借助「序列猴子」大模型的力量,「魔音工坊」能够通过仅需3至10秒的短音频迅速完成声音克隆,并且支持跨语言迁移和情感语气的生成。其海外版本DupDub进一步支持多语言内容生成,目前包括英语、法语、日语、西班牙语、葡萄牙语和泰语等多种语言。 在我看来,「魔音工坊」不仅展示了AI技术在声音处理领域的巨大潜力,而且通过提供多样化的服务满足了不同用户的需求。特别是其强大的声音克隆能力和跨语言支持,使得这一工具在全球范围内的应用前景更加广阔。此外,随着技术的不断进步和完善,我们有理由相信这类软件将在未来更加深入地改变人们的工作和生活方式。

   作为业内稀缺的坚持「产模结合」的公司,出门问问的声音大模型与「魔音工坊」的结合,充分展示了「产模结合」的数据飞轮效应。一方面,「魔音工坊」的用户数据持续不断地为声音大模型提供训练素材,推动其不断优化升级;另一方面,随着声音大模型技术的进步,「魔音工坊」也能够创造出更加逼真自然的音色效果,这不仅吸引了大量用户,也让产品的用户体验得到了显著提升。 这种良性循环不仅增强了产品竞争力,也为行业发展树立了新的标杆。通过这种方式,出门问问在人工智能语音领域取得了令人瞩目的成就,不仅在国内市场站稳脚跟,也在国际市场上赢得了广泛的认可。这表明,在技术驱动的时代背景下,只有不断创新并实现技术和应用的有效结合,才能在激烈的市场竞争中脱颖而出。

   在与“魔音工坊”的合作中,新华社将AI配音技术引入到其新媒体AIGC创新平台后,采用了多种声音类型,如磁性播音腔、温柔女声和治愈童声等,为推文配上与内容情感相匹配且发音准确的音频。通过这一过程,从文本导入到完成AI配音,通常只需要几分钟的时间,大大缩短了文本配音所需的时间,从而为新华社的工作人员节省了大量精力。

   新华社还可以通过形象克隆和声音克隆技术,为记者或者主持人1:1克隆形象,极大的提升后续拍摄和剪辑的效率。在新华社客户端“问证”板块中,便新增了“数字记者”角色。根据真人记者形象,出门问问为其1:1克隆出了数字记者,并通过短视频形式出镜,随时随地为读者科普播报,报道新闻事件。

   出门问问成立于2012年,是一家以生成式AI和语音交互为核心的人工智能公司,为全球多个国家和地区提供AI智能硬件、AI政企服务,以及面向创作者的AIGC产品。

   出门问问秉持「让AI助手无处不在,成为全球AI副驾领导者」的愿景,专注于开发国际一流的通用大模型。通过整合AI技术、产品与商业化三位一体的发展策略,立志成为全球AI副驾领域的先锋。

   出门问问具备行业领先的AI基础设施能力和尖端的通用大模型“序列猴子”,同时还拥有丰富的垂直领域软硬结合的优化算法技术模块。该公司是少数几家同时服务于内容创作者、企业和消费者三大类不同群体的公司之一。

   出门问问专注于利用AIGC技术提升内容创作的效率与质量,已构建了多款创新产品,包括AI配音助理「魔音工坊」及其国际版「DupDub」、AI数字分身「奇妙元」及其国际版「LivGen」、企业级AI交互式数字员工生成平台「奇妙问」以及能够一键生成视频的AI短视频生成平台「元创岛」等。这些工具共同构成了一个全面的内容创作生态系统,旨在帮助内容创作者更高效地完成创作过程。 在我看来,出门问问通过其丰富的产品矩阵,不仅极大地拓宽了内容创作者的创意边界,也显著降低了内容生产的门槛。尤其在当前信息爆炸的时代背景下,这种技术赋能对于提升内容质量和多样性具有重要意义。它使得更多人能够参与到高质量内容的创作中来,促进了文化的多元发展。此外,这些工具的应用场景广泛,无论是个人创作者还是大型企业,都能从中受益,从而推动整个行业的进步与发展。

   在应用与大模型的深度融合下,出门问问构建了独特的AIGC商业模式。相比传统的ToB和ToC模式,AIGC公司能够探索出一种新的商业模式——即服务中小型企业或专业消费者(ToSMB/ToPC)。这种模式不仅规避了传统ToB业务的项目制限制,还避开了与ToC互联网巨头在流量上的直接竞争。 这种创新的商业模式,为AIGC公司开辟了一条全新的发展路径。通过精准定位中小型企业及专业消费者的需求,不仅可以实现更高效的服务交付,还能在激烈的市场竞争中找到自己的立足之地。出门问问的成功案例证明,随着技术的发展和市场的变化,企业需要不断调整自身的商业模式以适应新的挑战和机遇。未来,随着人工智能技术的进一步普及和深化,这种针对特定市场细分领域的商业模式有望得到更广泛的应用和发展。

   在“产模结合”战略和面向中小企业及个人消费者的商业模式指引下,截至今日,出门问问的AIGC产品累计服务用户数已超过1500万,注册用户数超过1000万,其中付费用户数约为86.5万。公司已经成功从传统的AI项目制模式转型为可持续发展的AIGC业务模式。

   未来,出门问问将继续在AIGC应用场景中深耕,凭借公司在该领域的领先及先发优势,不断拓展AIGC技术与应用的边界,为我国生成式人工智能的发展做出贡献。 出门问问作为国内较早涉足这一领域的公司之一,在AIGC领域积累了丰富的经验和技术储备。未来,公司应继续发挥自身优势,加强与科研机构和高校的合作,推动技术创新,同时关注伦理和隐私保护等问题,确保技术健康可持续发展。此外,还应积极探索更多应用场景,如教育、医疗等民生领域,让先进技术更好地服务于社会大众,提升人们的生活质量。