99久久国产综合精品1 ,国产精品色情AAAAA片软件,少妇被躁爽到高潮无码文

最近中文字幕在线MV免费,暖暖视频免费最新中文字幕,免费无码又爽又黄又刺激网站,国内自拍a v偷拍视频,欧美亚洲国产精品久久高清

首頁 > 新聞及媒體 > 2023

《最in數(shù)字人》第二期 | 超低延遲數(shù)字人!響應(yīng)時間小于1秒!

2023-11-28

一場談話中,沉默的時間超過4秒,氣氛就會變的尷尬

人與人的對話尚且如此,更別說數(shù)字人了

因此,交互速度成為我們衡量一個“全擬真人類個體”是否合格的重要技術(shù)指標之一

通常情況下,AI驅(qū)動的交互型數(shù)字人交互反應(yīng)時長在7-8秒左右

有些“人工智障”甚至要達到20幾秒

但是現(xiàn)在,這個難題被攻克了

我們的全擬真人類個體響應(yīng)時間還不到1秒!

《最in數(shù)字人》第一期中,我們介紹了“全擬真人類個體”的概念及五大要素

本期內(nèi)容小編將透露降低數(shù)字人交互延遲的奧秘!

降低交互延遲“四步曲”

20231123-162640.jpg

超低延遲“江凌楓”,共享詩詞對答絲滑體驗

這位俠氣十足的古裝帥哥,是我們的全擬真人類個體“江凌楓”

跟他的對話可以用“縱享絲滑”來形容,全程秒問秒答

主打一個絕不讓任何人尷尬!

和數(shù)字人對話有幾步?

回想一下我們平時回答別人問題的時候,大腦運轉(zhuǎn)大概分為三步:

1.理解對方的問題

2.構(gòu)思答案

3.說出答案

數(shù)字人的大腦和人類大腦的區(qū)別在于,人的大腦不是被設(shè)計出來的,而是經(jīng)過浩瀚的歷史長河,通過選擇和演化而產(chǎn)生的。而數(shù)字人的大腦,是通過不斷的學(xué)習訓(xùn)練變得越來越聰明,反應(yīng)速度越來越快。

這看似簡單的三個步驟對數(shù)字人來說,需要海量的學(xué)習數(shù)據(jù),通過龐大的計算,調(diào)用一系列工具才能實現(xiàn)。而這個過程中,每個環(huán)節(jié)都可能是造成數(shù)字人反應(yīng)延遲,讓對話出現(xiàn)尷尬的沉默的原因。

總體來說,給江凌楓“大腦加速”,讓他能夠做到秒級響應(yīng),需要ASR語音識別、TTS語音合成、Audio2Face語音轉(zhuǎn)表情、大模型部署四大方面的技術(shù)提效。

秒問秒答的江凌楓有何過人之處?

步驟一  ASR語音識別

ASR語音識別的主要任務(wù)就是把語言信號轉(zhuǎn)換成文本,讓數(shù)字人理解我們在說什么。在這個過程中,通過選擇在本地部署ASR語音識別引擎的方式,能更好地應(yīng)對網(wǎng)絡(luò)延遲問題,從而加速整個識別過程,同時還保護了用戶的語音數(shù)據(jù)隱私。

步驟二  TTS語音合成

TTS語音合成環(huán)節(jié),則是將上一步生成的文本轉(zhuǎn)換為語音的過程,讓數(shù)字人把回答說給我們聽。

值得一提的是,在這個環(huán)節(jié),我們采用了流式傳輸?shù)姆绞剑ㄟ^將字符進行拆分重組,分段傳回合成語音的方式再次提升了數(shù)字人的反應(yīng)速度。

舉個例子,如果是非流式傳輸,一句簡單的“你好,我是江凌楓”需要等所有文字全部轉(zhuǎn)成語音后才能統(tǒng)一輸出,而采用了流式傳輸,數(shù)字人可以先將“你好”的語音輸出,并同時進行“我是江凌楓”的語音合成并輸出,巧妙地提升數(shù)字人回應(yīng)速度。而且,這種將一句話分段輸出形成消息隊列的方式,可以在“你好”輸出完成被“消費”掉以后,不再儲存于整個隊列中,解決大模型負擔,實現(xiàn)語音合成輸出環(huán)節(jié)的提速。

TTS語音合成這一步驟也是在本地完成的,在保護用戶隱私的前提下,極大程度上減少了與遠程服務(wù)器通信帶來的延遲問題。

步驟三 Audio2Face語音轉(zhuǎn)表情

人在說話的時候會有自然的表情變化,要讓數(shù)字人實現(xiàn)更真實的交互自然也要具備這種能力。Audio2Face語音轉(zhuǎn)表情過程,就是讓數(shù)字人根據(jù)語義所表現(xiàn)內(nèi)容做出面部肌肉運動、眨眼等相應(yīng)表情變化的關(guān)鍵。

這個環(huán)節(jié)中,我們著重解決的是當多個數(shù)字人同時在任務(wù)中,由于實例分配不及時導(dǎo)致的延遲問題。在布置Audio2Face實例過程中,我們自主研發(fā)的A2FServer、負載均衡服務(wù)器兩大神器起到了重要作用。

A2FServer不僅能夠自主匹配實例,還能實現(xiàn)持續(xù)連接,避免暫停交互數(shù)字人與實例自動斷開連接的情況發(fā)生。負載均衡服務(wù)器可以匯總數(shù)字人需要連接的端口、公網(wǎng)、內(nèi)網(wǎng)、狀態(tài)、是否被占用等信息,使數(shù)字人可隨時查看實例狀態(tài)并調(diào)用,降低表情轉(zhuǎn)化的時間。

步驟四  大模型部署

大模型是數(shù)字人“中樞神經(jīng)”,在實時交互的過程中承擔了自然語言處理、對話生成、個性化交互、知識獲取與問答、創(chuàng)造性文本生成、自動化文本生成、多輪對話處理等任務(wù)。

為了讓大模型擁有更好的運行環(huán)境,提升整體效率,技術(shù)團隊采用了高效的硬件和軟件架構(gòu),利用先進的多維并行、異構(gòu)內(nèi)存管理和低延時推理解決方案,來加速訓(xùn)練和推理任務(wù),最大程度地提高模型任務(wù)的效率。在有效降低AI大模型訓(xùn)練、微調(diào)和推理成本的同時,還優(yōu)化了模型任務(wù)的性能表現(xiàn),降低了對GPU的需求。通俗來說就是,大模型具備了完美的運行環(huán)境,靈活度自然也變得更好了。

除此之外,為了滿足不同場景的應(yīng)用需求,我們還選擇了基于國內(nèi)數(shù)據(jù)的預(yù)訓(xùn)練基座大模型,并對它進行垂直領(lǐng)域的訓(xùn)練和細致調(diào)整,不僅提升模型在特定任務(wù)中的準確性和適用性,還使其更符合專業(yè)需求。就好像當我們花大部分的時間深入研究、學(xué)習“金融”知識,當涉及該領(lǐng)域的內(nèi)容時,能夠更快速做出反應(yīng)并給出精準答案。通過這樣的訓(xùn)練,使數(shù)字人交互延遲的問題得到進一步解決。

總結(jié)

通過ARS語音識別、TTS語音合成、Audio2Face語音轉(zhuǎn)表情、大模型部署四個方面的有效技術(shù)提升,最終為我們呈現(xiàn)出了“有記憶、有靈魂、多感情、多感知、超寫實”的全擬真人類個體,使得數(shù)字人在交互過程中達到“秒級反應(yīng)”,真正實現(xiàn)了超低延遲的互動體驗。