看懂黑科技丨世界首部人工智能配音紀(jì)錄片創(chuàng)新中國(guó)誕生 1月18日,紀(jì)錄片《創(chuàng)新中國(guó)》在北京舉辦首映式,影視視頻制作企業(yè)宣傳片制作片中涉及了大量最新科研成就,比如光量子計(jì)算機(jī)、中國(guó)空間站計(jì)劃、智能制造等,讓人驚嘆我國(guó)進(jìn)來的科學(xué)成就。內(nèi)容吸引人,配音更是一大亮點(diǎn)。這部紀(jì)錄片是我國(guó),也是世界首部采用人工智能技術(shù)配音的紀(jì)錄片。片中使用了合成的央視播音員李易的聲音,為我們展示了語(yǔ)音合成中重要的組成——個(gè)性特征的語(yǔ)音合成技術(shù)首先,我們先簡(jiǎn)短介紹下李易。李易是央視著名播音員,2013年因病去世,曾為《再說長(zhǎng)江》、《大明宮》、《美麗中國(guó)》、《人類星球》、《遷徙的鳥》等多部紀(jì)錄片及影視作品配音,那句熟悉的“這里是中央電視臺(tái)電XX頻道”,就是李易的聲音。9招用好自然光攝影。《創(chuàng)新中國(guó)》中還原“配音大師”李易的聲音,不僅讓我們重溫了經(jīng)典之聲,還讓一項(xiàng)技術(shù)——個(gè)性化語(yǔ)音合成,走到了更多人視野里個(gè)性化語(yǔ)音合成技術(shù)的基礎(chǔ)是語(yǔ)音合成技術(shù),語(yǔ)音合成技術(shù)是讓計(jì)算機(jī)具有“說”的能力,目前語(yǔ)音合成系統(tǒng)產(chǎn)品已經(jīng)有了廣泛的應(yīng)用, 在清晰度、自然度方面都已經(jīng)基本能讓使用者接受。但隨著粉絲經(jīng)濟(jì)和影視行業(yè)等領(lǐng)域的發(fā)展,使用者更期望計(jì)算機(jī)可以按照多種不同風(fēng)格 、不同個(gè)性特征來說話 ,這就是個(gè)性化語(yǔ)音合成技術(shù)要解決的問題個(gè)性化語(yǔ)音合成技術(shù)是建立在語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)上的 , 是人機(jī)交互中重要的組成部分 , 是對(duì)語(yǔ)音合成技術(shù)的豐富與延拓 。本草綱目是笑話大全修改版,個(gè)性化語(yǔ)音合成可以讓計(jì)算機(jī)發(fā)出的語(yǔ)音增加個(gè)性 , 從而使語(yǔ)音合成具有更多的表現(xiàn)力個(gè)性化語(yǔ)音合成技術(shù)可以通過對(duì)不同說話人語(yǔ)音特征的分析 , 建立說話人的語(yǔ)音參數(shù) , 通過參數(shù)控制現(xiàn)有的語(yǔ)音合成系統(tǒng) , 從而實(shí)現(xiàn)個(gè)性化語(yǔ)音的合成。簡(jiǎn)單來說就是讓機(jī)器發(fā)出你想要聽到的人的聲音。它是一門交叉型學(xué)科,現(xiàn)實(shí)中的物質(zhì)罪惡正好剛剛開始,涉及到通訊、計(jì)算機(jī)、人工智能、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信號(hào)處理等技術(shù)個(gè)性特征語(yǔ)音合成技術(shù)可以分為四個(gè)階段進(jìn)行:一是語(yǔ)音采集階段 、二是語(yǔ)音分析和特征提取階段 、三是特征修改和轉(zhuǎn)換階段、四是個(gè)性特征合成階段 在語(yǔ)音采集階段,需要在安靜的室內(nèi)環(huán)境下錄制特征人的語(yǔ)音 、建立音庫(kù),并將原始語(yǔ)音進(jìn)行音素切分、濾波增強(qiáng)、儲(chǔ)存處理等語(yǔ)音分析和特征提取階段,需要提取特征參數(shù)、建立說話人特征模型 在特征修改和轉(zhuǎn)換階段,如果轉(zhuǎn)化文字,首先需要提取已建好的模型,6位導(dǎo)師告訴你行業(yè)真相!找出每個(gè)字對(duì)應(yīng)的拼音波形,然后組成完整的話。如果轉(zhuǎn)化語(yǔ)音,還需要把語(yǔ)音轉(zhuǎn)化為文字,再進(jìn)行以上操作在個(gè)性特征語(yǔ)音合成模擬階段,需根據(jù)原聲韻律、說話頻次等特點(diǎn)進(jìn)行調(diào)整與完善,然后生成個(gè)性語(yǔ)音文件 個(gè)性語(yǔ)音合成技術(shù)的應(yīng)用范圍十分廣泛,可以應(yīng)用在娛樂、影視、導(dǎo)航、數(shù)碼、醫(yī)學(xué)、企業(yè)宣傳片制作語(yǔ)音偽裝等領(lǐng)域應(yīng)用個(gè)性語(yǔ)音合成技術(shù),可以達(dá)到用特定人的聲音來朗讀各類文字,在聽書、導(dǎo)航等領(lǐng)域可以得到很大的應(yīng)用。在聊天或是唱歌的情況下,人們會(huì)用到變聲器,而使用了個(gè)性語(yǔ)音合成技術(shù)的變聲器,可以讓人發(fā)出某位特定人的聲音,這在娛樂領(lǐng)域的前景是十分廣泛的在影視配音中,往往需要大量的配音演員 , 而且配音演員與原演員的說話特征可能會(huì)有很大的差距。為準(zhǔn)確反映演員的個(gè)性特征 , 可以將配音演員的聲音中加入原來演員的一些聲音的個(gè)性特征參數(shù) , 這樣就可以使電影配音效果更加理想 。在動(dòng)畫片和紀(jì)錄片中,個(gè)性語(yǔ)音合成技術(shù)也可以得到更多地利用在醫(yī)學(xué)領(lǐng)域,通過個(gè)性化語(yǔ)音合成技術(shù), 可幫助聾啞人說話 , 也可提高聲道受損的人的語(yǔ)音可懂度 。如喉切除手術(shù)后的病人,主要利用氣管、食管進(jìn)行發(fā)音,所發(fā)出的語(yǔ)音噪音成分大,清晰度低 。采用聲源取代等技術(shù)可以大幅度地提高語(yǔ)音的清晰度 , 并恢復(fù)說話人的個(gè)性特征 在較為特殊的語(yǔ)音偽裝領(lǐng)域,語(yǔ)音發(fā)送方將表征個(gè)性特征的語(yǔ)音參數(shù)去除, 在接收端進(jìn)行根據(jù)個(gè)性特征模型合成出原來的語(yǔ)音 。如果在傳輸過程中被偵聽 , 則聽到的是另外一個(gè)說話人的聲音 , 達(dá)到說話人偽用 目前,在語(yǔ)音識(shí)別、語(yǔ)音合成方面的技術(shù)已經(jīng)較為完善,科大訊飛、谷歌等公司在這方面已經(jīng)做出了很多的研究。但是由于聲音特征計(jì)算難度大、模型提取復(fù)雜等因素,個(gè)性語(yǔ)音合成技術(shù)的研究成果和產(chǎn)品還很少,發(fā)展空間還有很大。之前百度在其世界大會(huì)中復(fù)原過張國(guó)榮的聲音,在一些娛樂明星的演唱會(huì)中,這項(xiàng)技術(shù)也露出過“尖尖角”,但都比較簡(jiǎn)短。這次在《創(chuàng)新中國(guó)》中,大段還原了李易的聲音,可謂是國(guó)內(nèi)個(gè)性化語(yǔ)音合成技術(shù)的一大飛躍。在未來,個(gè)性化語(yǔ)音合成技術(shù)能夠應(yīng)用于數(shù)碼產(chǎn)品中后,可能也會(huì)像如今的全面屏、屏下指紋解鎖等概念一樣,成為一個(gè)很大的賣點(diǎn)。