未来人们共情的方式是可以由AI驱动的。它可以让你在被看到和被听到的同时,还可以拥有在场感。近日,嘉程创业流水席第207席【探讨2024年AI的最新应用和趋势】,邀请了Harmoné Co-founder Nick分享,主题是《AI陪伴类应用的未来》。
以下为正文部分:
我们的产品叫Harmoné,一句话概括就是“看你所看,听你所听”。我们希望可以开发一款AI,可以和用户一起共情,主动进行交互,我们从陪用户一起实时看YouTube的Extension(扩展)开始做起。我们利用GPT-4和谷歌Gemini技术,使产品能够实时解析YouTube视频内容。比如观看一场篮球比赛,它可以知道比赛情况。如果詹姆斯陪用户实时看比赛,并且这场上还有詹姆斯在打球的话,他还会评论自己说“我觉得我打得还挺好的”。这只是一个例子。除此之外,我们之后会开放更多的角色,用户可以和任何喜欢的AI角色实时地看任何视频。比如和最终季的艾伦·耶格尔实时看《进击的巨人》第一季,可以和《The Office》里的Michael Scott一起看《The Office》,或者和郭德纲看《甄嬛传》,也可以和甄嬛一块看《春晚》。它可以无限组合,可以让任何的角色跟用户一起看不同的视频。
用户体验成为大模型竞争中的核心考量
为什么我要做这件事?因为我们认为,当前多模态模型有巨大机会,它可以彻底改变人与智能交互的方式。从大约2023年3月开始至今,这一领域不断发展,涌现出许多强大的模型。模型的能力已经不再是创业时的核心考量,因为它们会一直迭代。我们认为,现在应该将重点放在应用端,最重要的是提升产品的用户体验。市场的关注重心将从模型的能力或大模型之间的白热化竞争,转移到用户体验上。第二,目前所有的AI陪伴产品都是基于文本或语音的。我们认为,现在的AI已经具备了视觉能力,将多模态视觉能力应用到AI陪伴中,将使整个AI陪伴变得更加好玩。每个人都希望共享自己的心情,想要被理解和共情。然而,实时共情却是一件困难的事情。如果看人们发展的历史,最初可能是朋友之间相互共情,聊天喝酒,女生可能会一起逛街,满足的是被看到和被听到的需求。到了互联网的阶段,人们可以看到大量评论,无论是在网上还是在Twitch直播中,直播间都有评论,包括哔哩哔哩的弹幕。这种陪伴的体验实际上是让你有了一种在场感,但目前还没有一种产品能够同时满足被看到、被听到,还可以让你有在场感的体验。我们认为,未来人们共情的方式是可以由AI驱动的。它可以让你在被看到和被听到的同时,还可以拥有在场感。我们的产品实际上是一个多模态的AI伴侣,可以实时跟随你所看所听,主动与你在任何场景下互动。
AI陪伴类产品分析
对于产品提案,我们可以进行一些简单的对比。以前所有的AI陪伴产品存在几个问题:首先,你需要主动去找AI,比如说有一些需求,你需要去一个网站上跟AI聊天。第二,缺乏场景和上下文,也就是说你不知道应该和AI聊些什么,可能聊了一段时间后就不知道该聊什么了。第三,只有文本或语音交互。Harmoné可以做到的是:第一,它可以让AI主动找到你。当你在看视频时,它可以主动分析出视频中好玩的点,满足你共情和情绪需求。我们认为,这也是未来AI发展的一个巨大趋势,未来的AI应该能够主动识别用户的需求。比如,如果我感觉冷了,AI会说:“你感觉冷了,我帮你把空调打开。”如果我感觉饿了,AI会主动给我点外卖,送到我面前。因此,我们实际上是将这种抽象化的能力应用到了AI陪看视频的场景中。第二 ,AI陪看视频是基于场景和上下文的。以前的AI和人之间缺乏场景,所以大家不知道该聊些什么。我们认为可以做到一点,即将AI和人放在同一个场景中,在这个场景中,他们永远有话可聊,因为他们在实时观看视频。从某种意义上说,每个视频都是一个小型的元宇宙,你进入到了这个元宇宙里面,你可以和很多人产生话题。这个视频是有酸甜苦辣的,你有各种情绪在里面。所以我们现在真正做的就是,在在场感的场景里面,AI可以及时给你反馈。第三个,它是有视觉的,所以它可以看你所看、听你所听。在这样一种情况之下,你是更能和AI达成共情的。在某种意义上来说,它其实就像真人一样,和你同时在一个场景里面,一起经历一切。所以这是我们Harmoné在做的事。我们产品也很简单,就三步,通过输入自己的Email,选择陪自己一起陪看的、聊天的 AI,然后就可以开始聊了。同时我们还开放了一些UGC的功能,可以输入一个你想要聊的AI角色,上传声音样本,那么我们就可以马上训练出来一个AI,实时陪你去聊天。
AI陪伴类产品用户和市场需求广大
我觉得用户主要是在十三岁到三十岁这个区间,大致可以分为三类。第一类用户是特别喜欢看漫画和番剧的人。通过用户访谈和调研,我们发现很多热爱漫画和动漫的人希望有一个动漫角色能实时陪伴他们观看。比如,当我在看《间谍过家家》时,我想要阿尼亚陪我一起看;或者当我看《火影忍者》时,如果能有鸣人陪伴,那我觉得是非常酷的一件事。因为他们非常喜欢其中的一个动漫角色,也很想把自己的情绪投射在上面。因此能够实时与动漫角色一起观看电影和视频对他们来说是一种全新的、非常棒的体验。第二就是For fun。大家会用各种不同的角色来搭配各种不同的视频,创造很多的喜剧效果。第三点可能是一些非常专业的内容。比如在学习或听课时,或者像我一样看代码,在观看相关视频时,如果有一个AI了解这一领域的内容,能够在我观看视频时实时向我解释这部分内容,会非常有帮助。另外,一些用户特别喜欢看《权力的游戏》,这类剧情复杂,逻辑深刻,因此如果有一个龙妈AI能够实时解释剧情发展,告诉我为什么这个人物说这句话,也非常有意思。我们做用户访谈时发现,人们在经历情感需求的时候是需要被陪伴的,而看电影或者在看视频的时候,这种情感需求是非常强的。
从单平台到全平台,从虚拟向现实
我们的Roadmap一开始是实时陪伴你观看YouTube,然后逐步扩展到支持Netflix等更多平台,整合更多的平台,让它在各种平台上都能兼容,都能适用,可以看电影,可以看节目。所有这些视频、电影,其实都是现实世界的某一种投射。我们收集大量数据之后,可以做出在现实生活中也可以用的AI,因为这些视频本质上就是现实生活的一些缩影。把这些视频如果处理好,也有了一定的能力去处理现实世界当中发生的事。所以我们最后是想做一个真正的AI的硬件,或者说是替代手机的AI,它可以实时地陪你看任何事情,和你度过每一天,有点像电影《Her》中的那种AI。
创业经验分享
我也想分享一些我自己的创业经验,我认为有五点是最重要的。第一,创业是一件非常艰难的事情,道阻且长。就像是一个打德州的牌手一样,只要你一直留在这个牌桌上,就有可能得到翻盘的机会,但是如果你不在这个牌桌上,永远也没有办法打出一手好牌,所以我觉得坚持非常重要。第二,一定要能听得进去别人的话,ego(自我)绝对不能大,一定是要善于听取别人的意见,才可以综合所有人的意见做出一个非常好的决策。第三,学习能力和迭代能力非常重要。如果你对市场营销不了解,就去学习市场营销;如果对产品不了解,就去学习产品。创业给了你一个平台,无论你做什么,都需要不断学习和迭代。我觉得世界上最厉害的企业家和大学生,他们差的是在见识上,是在认知上,而不是智商。所以最重要的是学习和迭代。第四,要拥有一定的人格魅力。如果你具有一定的人格魅力,你可以带领团队一起干,或者可以把事情盘起来,就非常的厉害。因为有的时候人们是需要精神支持,需要一些领导者的。最后一点,心态一定要非常好。希望大家可以调整好自己的心情,慢慢往前走。我祝愿大家都可以取得想要的成就。
Q&A
席友:现在产品的实时性如何?比如AI看到的视频速度会很快,如果视频的镜头一闪而过会怎么办?Nick:实时性是基于视频的连续性。如果我们和名人一起观看《泰坦尼克号》电影,大语言模型对《泰坦尼克号》非常熟悉,所以它的连续性会非常强。我们的做法实质上是将视频分割成小片段,然后输入到可以进行视觉识别的大型模型中。因此,对于这种故事性很强的视频来说,是完全没有问题的。然而,如果是遇见一些主播或者一些较为小众的视频,可能在理解上会稍微有所差异。总的来说,我们的实时性非常高,目前的延迟时间大约在10秒(截至发稿已降至4秒)。你说一句话,AI会在10秒内回复你。而在观看视频的过程中,AI会主动与你交流,因此用户体验应该还算不错。我们的目标是将这个时间压缩到2到3秒内,以实现更快速的实时回复。就用户体验而言,应该是这样的。席友:用户是怎么调用的?需要与视频网站做接口吗?还是看视频的时候就可以直接使用?Nick:看视频的时候直接to C使用就可以,这是一个浏览器的插件,一个Chrome 的Extension(扩展)。你在看视频的时候,只需要打开这个Extension,就可以选择你想要的角色看任何视频了。想切换到别的视频,我们的AI会主动识别你切换到什么视频,并与你互动。席友:这个产品的壁垒是什么样的?别人是否能够很快模仿、仿制这个产品?Nick:这是一个很好的问题。在我们开发这个产品时,想到了三点。如果要做一个好的to C产品,我觉得有几点:第一点,它一定是提供一种创新的体验,能够给用户带来前所未有或者从未体验过的好玩的感觉。第二点,它一定是现有AI的模型能力可以做到的。我知道一些朋友在做利用GPT-4V进行实时视频剪辑的工具,但实际上这些剪辑大多数都是来自电影的片段,有些甚至是一些小众电影,因此效果可能并不理想。所以要找一个容错率比较高的场景,AI陪伴的容错率我觉得还是可以的。因为它不像是这种拿照片拍病人的图去诊断,或者拿照片去拍某维修的部位或者器件等等。第三,关于竞争壁垒,我们的产品壁垒基于对大型模型未来趋势的判断和思考。我们认为这个壁垒是真正的用户体验,要把用户体验做好。这个用户体验它又拆分出了很多的逻辑,比如它的实时性怎么样?反馈怎么样?它说的话是不是好玩?这些都是我们通过Prompt Engineer调的。有的朋友们可能会问,如果你们模型没有壁垒,怎么去做这个事情?我回答就是我们是一个关注用户体验的公司,我们的判断是,即使你现在微调一个模型或者使一个模型表现得非常好,但它的体验可能仍然不如GPT-5版本,你可以调用Prompt Engineer,它效果更好。因此,技术上可能有差距,但不会太大,可能只有4%到5%的提升,但在用户体验上是非常到位的。因此,我们认为更关键的是关注用户习惯,说什么话能让他们开心,说什么样的话会让他们觉得他们自己被共情到了。所以这个Prompt Engineer的部分应该我们需要去做的,这也就是我们的壁垒。席友:现在有根据剧情、剧集或者用户过往聊天记录做用户体验的改进吗?还是纯粹基于视频内容?Nick:这个是我们之后要做的事,因为我们现在是做了一个MVP,比如说看大众都知道的电影,它的效果已经很不错了。如果是基于聊天记录或者具体剧情的话,需要做一些更多的调整,主要是工程化的调整。全文完
往期嘉程创业流水席线上活动现场
往期嘉程创业流水席线下活动现场
往期回顾
–行业分享-生物科技公司IPO筹备消费医疗Z世代印度市场企业服务直播电商医药数字化营销DTC品牌出海TikTokToB企业服务案例拼多多 中老年医疗器械餐饮功能性食品小家电潮流文化连锁精细化-T3小组-财经作家沈帅波闪光少女斯斯印度掘金的90后们疫情中的创始人/投资人流量增长操盘手牛子健毕导毕啸天巨有文化赵英男&张琳90后算法天才柳叶刀烧烤王建女子刀法刀姐豆瓣音乐唐子御嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。嘉程资本是创新者思考的伙伴,成长的伙伴。
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017