專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
在八十年代初,人工智能的先驅馬爾文斯基曾經談論過人工智能的前景。馬爾文斯基預測,在以后的世界里,機器會具有和人腦相同的思考能力,他們可以獨自進行和人類的行為相同的活動,比如閱讀,比如汽車駕駛,或者聊天。
如果在當年看來,這些構想真的很遙遠。而在今天,這些遙不可及的設想也在逐漸實現了,現在的智能產品能夠聽懂我們的指令并做出相應的行動,除了能分辨我們的聲音,機器人還能夠通過人臉識別幫助我們尋找目標人物。人工智能的技術讓機器人行業掀起了新一輪變革。
智能產品不斷涌入大家的視野,智能機器人開始在工業等眾多行業投入使用,人工智能的發展直接影響了眾多行業,就在11月7日上的世界互聯網大會,搜狗推出了AI合成主播產品,至此,人工智能的影響行業又再增添一項。
“AI合成主播”是什么
所謂“AI合成主播”,顧名思義,是用人工智能技術合成的新聞主播。“他”不僅能用和真人一樣的聲音進行播報,甚至,連唇形、面部表情、肢體語言也能夠與真人主播吻合,達到真假難辨的效果。“AI合成主播”的價值在于,可以大幅壓縮新聞播報視頻的后期制作成本,新華社副社長劉思揚表示:“從今天開始,新華社AI虛擬主播就將正式上崗,成為新華社報道隊伍中新的一員。”
“AI合成主播”的技術原理
搜狗語音交互技術中心總經理王硯峰透露,只需要由真人主播面對鏡頭錄制一段播報新聞視頻,“搜狗分身”技術憑借這段視頻,就能將真人主播的聲音、唇形、表情動作等特征進行提取,然后再通過語音合成、唇形合成、表情合成以及深度學習等技術,克隆出具備和真人主播一樣播報能力的“AI合成主播”。
王硯峰提到的“搜狗分身”技術,是搜狗公司的前沿技術之一,它包含語音合成和圖像生成兩大引擎。
(1)語音合成技術:
AI主播首先要實現的功能是在計算機有文本輸入時,能夠以主播的音質發出聲音。這項技術其實也是語音識別的過程,分為以下步驟:
語音合成技術首先對主播的聲音進行提取,再通過不斷的訓練學習,提取該主播聲音中的特征信息,進而建立和主播語音相同的多維度語言語音模型,最終實現在輸入文本時,能夠輸出該主播語音的功能。
(2)圖像生成技術:
除了語音的學習訓練,AI合成主播還需要學習主播的表情。和語言識別的性質相同,圖像生成也要通過不斷的訓練學習構建模型來獲得。現階段可以采用人臉識別、三維人臉重建、表情建模技術對人臉進行分析,建立人臉的多維度數據模型。最終在輸入文本,視覺信息和音頻之間構建聯系。
基于這兩種技術,搜狗的AI分身能夠實現和人類主播一樣,為輸出的文本中添加相應的音色和語調,豐富AI合成主播的形象,提高觀眾對AI合成主播的接受度,同時,AI合成主播能夠識別中英文兩種語言,擴大了AI合成主播的使用場景。
人工智能發展還在繼續
目前,機器人已經開始在工業領域大批量使用,并能夠完成人做不了的事情,不過機器人超越人類只是表現在較少的領域,例如制造業、服務業等,如果通用型機器人能夠全面超越人類,那么將是一個很大的震驚。
人工智能從多個方面賦予機器人全新的能力,在感知檢測方面,通過視覺、力覺、聽覺等多種傳感器,使機器人獲得了像人類眼耳鼻舌,以及聲音在內等的感知系統,機器人可以聽懂人類的語言,可以識別人臉,這些功能的開發進一步擴展了機器人的應用場景。
現在智能機器人已經被開發出很多新的功能,例如陪伴老人、下棋、教育小孩子、清掃地面、安防監控等等,機器視覺、語音識別以及更多的感知功能的運用,讓機器人和人的交互增加,提升了用戶使用智能產品的用戶體驗。
“AI合成主播”的應用是“搜狗分身”的先創案例,它的技術使用不止于此。在之后,搜狗可以依靠這項技術復制各種用戶需要的人類形象,例如合成教師、合成客服等,而這些產品的出現,意味著人工智能產品影響的行業范圍也會增加。
AI機器人蘊含著巨大的潛力,現階段人們已經推出了各種專業領域的機器人,從工業機器人到教育機器人、養老機器人、搶險機器人、醫療機器人等等,這些細分領域市場雖然遠未有爆發,但未來的前景是不可估量的。
本文由五度數科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論