是使用日本雅馬哈公司所開發的Vocaloid程序編輯出來的。軟件采用Yamaha開發的“Frequency-domain Singing Articulation Splicing and Shaping”。先采集人類聲音的標本,然後再制作歌聲數據庫,最後進行伴奏與歌聲合成。
要想制作這種虛擬歌手,不僅要有資金,最重要的是它的技術,這不是有錢就能做到的,vocaloid的研發公司可是做了100多年的音樂產品了,其中的技術不是壹時半會就能研發出來的。光是壹個聲庫的研發成本就100萬。
擴展資料:
系統架構:
Vocaloid軟件的系統架構(System architecture)分為三個部分:歌曲編輯器(Score Editor)、音源庫(Singer Library)和合成引擎(Synthesis Engine)。
歌曲編輯器
歌曲編輯器(Score Editor)是壹個可以輸入音符、歌詞和聲音表達式的琴鍵界面。對於日語音源庫來說,用戶可以將平假名、片假名和日語羅馬字以五十音歌詞的方式輸入。
對於英語音源庫來說,編輯器會使用內置發音詞典將歌詞轉換為國際音標註音符號。使用五十音和註音符號來進行編輯是為了讓用戶可以直接造詞。
因為日語音源庫和英語音源庫***處於同壹平臺,所以雖然使用不同的輸入法,但是日語編輯器依舊可以讀取英語音源庫,反之亦然。所有的Vocaloid歌曲編輯器皆可以讀取所有的Vocaloid音源庫。
正因為此,所有版本的歌曲編輯器除了菜單語言外本質上沒有任何不同,因為整個程序的核心不在於編輯器而在於音源庫。
歌曲編輯器提供不同的參數用於添加表達式和生成歌聲,而用戶的目標則是對這些參數進行優化。編輯器支持Rewire,並能與DAW同步。也支持用MIDI鍵盤進行實時回放(Real-time Playback)歌詞所組合的樂曲。
音源庫:
音源庫(Singer Library)是Vocaloid系統架構的核心部分。每壹個由Vocaloid授權的音源庫或數據庫都采樣於真人實錄片段。音源庫的基礎數據必須包含其目標語言可能包含的所有音素(phonemes)的所有組合。還包括雙音素(相連的兩個不同的音素)和長原音。
如果需要的話,數據庫還需要有多音,暨三個及三個以上的音素相連的組合。舉例說明,若聲音對應的單詞是“初”(chū),可以按順序來串聯合成“#-c,c-h,h-u,u-#”(#代表清音,不過現代漢語,或者說“普通話”是不需要清音的)的組合。
為了得到更自然的聲音,需要不同音高範圍的片段。日語有500種雙音素組合,而英語則有2500種。?
日語的雙音素很少,主要是因為日語的音素少,並且有較多的以原音為結尾的開音節。在日語中,基本只有三種雙音素含有輔音:“清音-輔音”、“元音-輔音”和“輔音-原音”,而在英語中很多的輔音後面會跟有閉音節。
例如雙音素“輔音-輔音”和“輔音-清音”。因此,日語的組合難度較低,而英語則需要更多的雙音節資料。也因為這個差異,日語音源庫從理論上和技術上是無法去唱出英語詞的。Vocaloid的所有版本也均不能支持這些操作。
合成引擎:
合成引擎(Synthesis Engine)是Vocaloid編輯器的綜合處理中心。歌曲編輯器會向合成引擎傳送壹種被稱為“Vocaloid MIDI”的樂譜信息,其包含Vocaloid專有的MIDI信息。
調整在頻域內的不同片段音高和音色後,就會進行拼接並合成歌聲。當Vocaloid從DAW作為VSTi來運行時,捆綁在內的VST插件會繞過歌曲編輯器並能直接將各種信息發送給合成引擎。
在歌曲中,壹個音節的輔音音節首會在元音音節的音節首前發聲,而音符的起始位置並非和音節的起始位置相同,而是和元音的音節首位置相同。
軟件會實時調整合成樂譜的音符位置讓其與元音的音節首位置重合,若不這麽做歌曲會有延遲感。接下來合成引擎會自動調整音源庫中樣本的音調使其貼合樂譜,緊接著引擎會撫平兩份聲音樣本連接處的不協調感。
經過上面步驟的處理,引擎會通過諸如快速傅裏葉逆變換(IFFT)等技術輸出合成聲音。
參考資料: