旅行时,想在社交平台发布一支精美的旅行 vlog,拍摄剪辑需要花费多长时间?
20 分钟?一小时?半天?
在火山引擎算法工程师眼里,可能 1 分钟都用不了,因为会有 AI 替你完成。
🔥🚀创新来袭!火山引擎最近惊喜发布了一款超炫酷的『智能旅行影像』工具!只需轻轻一扫,景区一到手,AI立刻接手,记录你旅途中的每一帧难忘瞬间。无需手动剪辑,一键生成专业级旅行短视频🎉🌍只需授权,让创意互动触手可及,让你的旅程留下科技感满满的回忆💪✨
🎉无需亲自动手或劳神选址,👩💻无需求助于他人拍照,📱更不必在游玩中分心摆弄手机或相机,也不用担心后期修图的烦恼。只需全身心投入,一出门,就能轻松收获一段可以直接分享到抖音的独特视频体验!🌍✨
来看看效果:
重播
00:00
/
00:00
直播
🌟创新互动体验🌟🔥最近震撼亮相于2023春季的【火山引擎FORCE原动力大会】,这款独特的VR(虚拟现实)vlog技术已在全国各大热门旅游景点悄然落地,为游客带来前所未有的互动乐趣!🌍通过逼真的视觉和音频效果,观众仿佛置身其中,探索每个景区的独特魅力。无论是文化遗产的深度游览,还是自然风光的震撼呈现,创意互动Vlog都以创新的方式打破了传统旅行的界限。📸Narratives交织着交互设计,让每一次观看都成为一次难忘的旅程回忆。这款技术不仅提升了游客的旅游体验,也展示了科技如何赋能旅游业的发展。如果你还没尝试过这种沉浸式娱乐,不妨在下个假期计划中加入这个新奇元素,让你的旅行更加多彩!🎉记得关注【火山引擎】,了解更多前沿科技如何改变我们的出行方式。🌍💻
这款产品的背后,是一支奔着各大旅游景区到处跑的字节内部创业团队。
拿着「锤子」的算法工程师,遇见找到「钉子」的产品
2022 年初,火山引擎算法工程师容荣研究出了这样一项技术:
🌟通过巧妙的摄影布局和人工智能图像识别,我们能自动化地从场景中提取人物,然后配合专业级别的视频模板,一键生成定制化的个人短视频。✨无需复杂的设备或人工操作,只需简单的创意构思,就能让每个瞬间生动起来。🌍无论是聚会纪念、旅行记录,还是企业宣传,这个高效便捷的解决方案都能满足你的需求。👩💻立即探索,让你的创作更上一层楼!
那么,这个「特定的场景」应该是什么场景呢?
和所有的技术创业者一样,容荣拿着这个技术的「锤子」,开始寻找应用场景的「钉子」。
她先想到的是儿童兴趣班,比如一些培训机构提供的轮滑课、舞蹈课等场景,拍摄孩子们快乐学习的视频。
但容荣很快发现,这类培训机构市场零散、没有规模化,很难找到合适的客户来落地。
不久之后,火山引擎 AI 产品解决方案同学孟兰发现:
「将抖音的 AI 技术和文旅行业结合,配合抖音平台的优势,用 AI 来做旅行视频。」
🌟团队愿景:引领AI驱动的创新视频制作🚀💡视频设计团队热切期待打破传统,探索前沿技术在旅游宣传中的应用。他们与AI智慧紧密携手,构想了这样一个独特方案——利用AI为景区游客量身打造个性化Vlog,让每一刻旅行都充满故事感。🌟🤝跨部门合作火花四溅,一群富有创意的专家们集结一堂:算法专家、研发先锋、产品设计师、视觉大师、编导巧思与销售策略家,共同编织这个内部创业团队的绚丽篇章。他们的目标是将AI技术融入旅游体验,为游客带来前所未有的互动式娱乐。🌟🔥项目启动后,他们以高效协同和专业精神,迅速推进落地,期待通过这种方式,让每一个镜头都闪耀着科技的魅力,同时也讲述着景区的故事。🌍别忘了,这样的创新不仅提升了观众的观看体验,也为旅游业注入了新的活力。SEO优化关键词:AI旅游视频、个性化Vlog、创新制作方式。🌈
为了锁定飞驰的滑雪者,算法工程师自己设计滑雪服
🌟孟兰分享:落地B项目关键在于实践与探索,从产品打磨到寻找首批伙伴,每个环节都不能忽视。我们以滑雪场为例,与之紧密合作,通过不断优化,让创意互动Vlog产品实现了显著成长。🚀每一次迭代,都是对市场和客户需求的精准响应,这正是我们持续创新、追求卓越的有力证明。💪
其中首要的技术问题是,当景区的拍摄装置拍下了许多视频后,如何把同一个人的部分找出来?
容荣先想到的是用图像识别结合 RFID 的方案。
RFID 全称 Radio Frequency Identification,译名射频识别。就像门禁卡一样,在一个专门的 RFID 手环上绑定游客信息,那么无论他走到哪里,刷一下卡,系统就能认出他是谁。
但团队去景区出差之后才发现,这种方案实在太复杂了:景区工作人员需要先把手环发给游客,然后游客绑定自己的身份,游玩结束后还要统一回收手环。而且手环的成本比较高,这种方法又麻烦、又昂贵。
于是,容荣决定改方案,保留图像识别的部分,删去 RFID 手环,而是在景区设置可交互的大屏幕,提示用户面向屏幕做一些比心、微笑、竖起大拇指、叉腰之类的表情动作。这种方案既可以借助用户姿态来确认身份,又可以增加特效、美颜等效果。
针对滑雪场景,容荣也做了很多优化。由于需要人物滑雪的照片作为模型训练的数据集,她拉着工位旁边的几位同学跑到字节跳动深圳湾办公楼下,穿着厚厚的滑雪服拍摄照片;后来还有同学联系到了一家滑雪俱乐部,请专业人士用更标准的姿势来拍照。
不过,有了训练数据,想准确地辨识人物依然有困难。
一是滑雪本身就是高速运动,容易拍不清楚;二是滑雪场有时风大雪大、阳光不好,视频会更模糊;三是雪道很长,拍摄装置很多,想要在不同拍摄装置拍摄的视频中找到同一个人,是一个技术上很难的问题。
为此,容荣干脆自己设计了一款新的滑雪服:
在胸前、肩膀等部位放置特定的编号,滑雪游客租用带有编号的滑雪服,算法只要识别出编号,就能知道是哪位游客了。
这样,结合姿态特征与滑雪服上的编号,使用「多模态聚类算法」就能准确的找到特定的游客。
来看看 AI 生成的滑雪 vlog 效果:
重播
00:00
/
00:00
直播
过山车跑的那么快,如何决定剪哪一段?
“其实我们一开始不想做滑雪场景,因为蹭的一下就滑过去了,速度太快,人群也很密集,算法不好锁定人物。但到了景区才发现,滑雪游客非常喜欢这类 vlog 服务。”容荣说。
所以,后来团队工作的一大重点就放在了滑雪、过山车、蹦极这类极限场景下。
玩这类项目时,游客最希望视频记录的是整个过程中最刺激的时刻,但这时游客表情非常激动,算法难以识别。
算法工程师容荣再次灵光一现:图像不好识别的话,那识别声音试试呢?
“风声代表速度,人声代表情绪。玩这种刺激项目的时候,一个人嗓门越大,说明他越激动;但也有人完全不叫喊,那我们就识别风声,风声越大说明速度越快、人的体验越刺激。”
极限场景惊险刺激的时刻、美丽风光让人心情大好的时刻、运动场景中表现优异的时刻,都被项目团队定义为了「高光时刻」,这是游客最深刻的记忆,也是最值得被视频记录的瞬间。
因此,项目算法团队与设计团队一起定义了一套「高光识别算法」,集成了人体手势、动作识别、人物关系检测等多种 AI 算法,能够根据场景动态捕捉游客的高光时刻,景区运营者也可以根据季节、活动等自由定制。
深入一线,感受不同地区的风霜雨雪
无论是滑雪场、游乐园还是博物馆,探索每种新游玩场景时,项目团队组团出差去现场,了解每个场景的细节特点。
线下能发现许多在办公室里闭门造车发现不了的问题,技术同学则可以改技术方案,产品经理则可以了解景区运营状况、游客动线、景色最美的位置、游客聚集的地点,了解景区管理者的经营计划。
有一次,大家组团去滑雪场出差时,正赶上了寒冬腊月,下着鹅毛大雪,连雪道都结冰了。创意互动 vlog 团队的产品、研发、设计们,和当地的安装师傅一起扛着摄影机和安装工具爬到雪坡上,寻找合适的安装位置。
作为项目的算法负责人,容荣需要做很多深入一线的工作。在安装摄像头的过程中,她需要当场根据图像质量、晨昏光线、人体在画面中的大小来判断这个位置拍出来的图像能不能用,针对现场场景采集数据、当场优化这个场景的算法准确率。
但完成当天的现场工作之后,一群人站在雪坡顶上傻眼了:
除了 AI 产品解决方案同学孟兰之外,其他人都不会滑雪。
于是,一副奇特的景象发生了:大雪纷飞的滑雪场,一群人半夜十点坐在雪坡上慢慢往下滑,有人的睫毛上都冻上了冰晶,有人滑到山下后,站起来却发现裤子都被磨到反光。
就这样,一年多里,创意互动 vlog 团队的同学们一直在产品建设的路上。
他们探索滑雪场、游乐场、打卡地等各种不同类型的园区,一边优化产品,一边提升技术,一边跑通了商业落地。
AI 产品解决方案同学孟兰说,当每一类场景率先跑通一个标杆景区后,就可以方便地将不同场景的解决方案复用,低边际成本服务其他同类景区。
“我们在滑雪这个场景的经验至少领先市场 1.5 年,因为你需要足够漫长的冬天去摸索这些经验。”
而火山引擎的技术同学们,也正在不同的 B 端业务场景下,持续探索创新,用技术赋能千行百业。