1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 微软TTS语音引擎实现文本朗读

微软TTS语音引擎实现文本朗读

时间:2023-10-19 20:57:40

相关推荐

微软TTS语音引擎实现文本朗读

科大讯飞和neospeech tts哪个更好

朋友们或许还有一个疑问,就是不知道科大讯飞和neospeech哪个更好。据我的体会,它们其实各有优点。

科大讯飞有几个语音库,比如小宇、小燕、还有一个粤语和英语的;而neospeech则有lily、liang、hui几个中文语音库。

科大的最大优点就是朗诵清楚,听起来能做到几乎每个字都让我们能听进去。而neospeech的优点则是流畅,高低起伏、抑扬顿挫,临场感很强,不过有时候某些字眼会让人听不太清楚。

提醒一下,neospeech里面的liang语音库,个人觉得是最好用的,浑厚的男声每个字都朗读的很清楚,而且临场感和流畅度都很强,是中文文字朗读里面的佼佼者!赞一个~~

要下载的朋友可以在电驴里面搜索下载。

综上所述,从总评来说,neospeech应该比讯飞语音略胜一筹的!至于各家的优点上面已经说过。要我自己来排名的话,是这样的(由高至低):

a. neospeech liang

b. 科大讯飞 小燕

c. neospeech lily

d. neospeech hui

e. 科大讯飞 小宇

当然如果说到英文,neospeech里面的Paul算是当前最好的发声效果了!连霍金都在用它,你说它有多么强悍呢!

最后说一下,文语通和方正畅听都是科大的,不过体积相比要小很多,尤其方正畅听,如果你的要求不高的话,完全可以使用方正畅听,听起来也是挺流畅滴。

最后希望大家好好爱护自己的眼睛,不要长期用眼看电脑,转“看”为“听”,既能护眼,又是一种享受,何乐不为呢?

下载地址:/topics/2780296/(neospeech)

/topics/2828273/(科大)

使用微软TTS语音引擎实现文本朗读

11月04日 15:51:30byxdaz阅读数:12312

版权声明:本文为博主原创文章,未经博主允许。 /byxdaz/article/details/78443954

TTS(Text-To-Speech)是指文本语音的简称,即通过TTS引擎把文本转化为语音输出。TTS语音引擎有微软TTS语音引擎、科大讯飞语音引擎等。科大讯飞tts sdk参考这个页面/sdk/dispatcher

文本主要介绍如何使用微软TTS语音引擎实现文本朗读,以及生成wav格式的声音文件。

1、语音引擎及语音库的安装

微软TTS语音引擎提供了WindowsSpeechSDK开发包供编程者使用。WindowsSpeechSDK包含语音合成SS引擎和语音识别SR引擎两种,语音合成引擎用于将文字转换成语音输出,语音识别引擎用于识别语音命令。

WindowsSpeechSDK可以在微软的官网上免费下载,下载地址为:/download/en/details.aspx?id=10121

在该下载界面中,选择下载SpeechSDK51.exe、SpeechSDK51LangPach.exe和sapi.chm即可。

下载完成后,先安装语音引擎SpeechSDK51.exe,再安装中文语音库SpeechSDK51LangPach.exe。

目前最常用的Windows Speech SDK版本有三种:5.1、5.3和5.4。

Windows Speech SDK 5.1版本支持xp系统和server 系统,需要下载安装。XP系统默认只带了个Microsoft Sam英文男声语音库,想要中文引擎就需要安装Windows Speech SDK 5.1。

Windows Speech SDK 5.3版本支持Vista系统和Server 系统,已经集成到系统里。Vista和Server 默认带Microsoft lili中文女声语音库和Microsoft Anna英文女声语音库。

Windows Speech SDK 5.4版本支持Windows7系统,也已经集成到系统里,不需要下载安装。Win7系统同样带了Microsoft lili中文女声语音库和Microsoft Anna英文女声语音库。Microsoft lili支持中英文混读。

2、SAPI接口的使用说明

1)、基本朗读过程的实现

在使用语音引擎之前进行初始化:

ISpVoice*pSpVoice; // 重要COM接口::CoInitialize(NULL); // COM初始化// 获取ISpVoice接口CoCreateInstance(CLSID_SpVoice,NULL, CLSCTX_INPROC_SERVER, IID_ISpVoice, (void**)&pSpVoice);

获取到ISpVoice接口以后,我们就可以通过pSpVoice指针调用SAPI接口了。

我们可以设置音量:pSpVoice->SetVolume(80);。SetVolume的参数即音量的范围在0到100之间。

可以这样朗读字符串内容:pSpVoice->Speak(string, SPF_DEFAULT, NULL);。这样string里的内容就会被朗读出来了,第二个参数SPF_DEFAULT表示使用默认设置,包括同步朗读的设置。异步朗读可以设置成 SPF_ASYNC。同步朗读表示读完string中的内容,speak函数才会返回,而异步朗读则将字符串送进去就返回,不会阻塞。

使用完语音引擎后应执行:

pSpVoice->Release();::CoUninitialize();

这样资源被释放,语音朗读过程结束。

以上就完成了一个简单的语音合成朗读的功能。

2)、ISpVoice的成员函数

鸡啄米再简单说明几个ISpVoice接口的成员函数:

HRESULTSpeak(LPCWSTR*pwcs,DWORDdwFlags, ULONG*pulStreamNumber);

用于读取字符串pwcs里的内容。参数pwcs为要朗读的字符串。dwFlags是用于控制朗读方式的标志,具体意义可以查看文档中的枚举 SPEAKFLAGS。pulStreamNumber为输出参数,它指向本次朗读请求对应的当前输入流编号,每次朗读一个字符串时都会有一个流编号返 回,异步朗读时使用。

HRESULTSetRate(longRateAdjust); // 设置朗读速度,取值范围:-1010HRESULTGetRate(long*pRateAdjust); // 获取朗读速度 HRESULTSetVoice(ISpObjectToken*pToken); // 设置使用的语音库HRESULTGetVoice(ISpObjectToken** ppToken); // 获取语音库HRESULTPause(void);// 暂停朗读HRESULTResume(void);// 恢复朗读 // 在当前朗读文本中根据lNumItems的符号向前或者向后跳过指定数量(lNumItems的绝对值)的句子。HRESULTSkip(LPCWSTR*pItemType,longlNumItems, ULONG*pulNumSkipped);// 播放WAV文件HRESULTSpeakStream(IStream*pStream,DWORDdwFlags, ULONG*pulStreamNumber);// 将声音输出到WAV文件HRESULTSetOutput(IUnknown*pUnkOutput,BOOLfAllowFormatChanges); HRESULTSetVolume(USHORTusVolume);// 设置音量,范围:0100HRESULTGetVolume(USHORT*pusVolume); // 获取音量HRESULTSetSyncSpeakTimeout(ULONGmsTimeout);// 设置同步朗读超时时间,单位为毫秒HRESULTGetSyncSpeakTimeout(ULONG*pmsTimeout); // 获取同步朗读超时时间

因为在同步朗读时,speak函数是阻塞的,如果语音输出设备被其他程序占用,则speak则会一直等待,所以最好设置好超时时间,超时后speak函数自行返回。

3)、使用XML朗读

在进行TTS开发时可以使用XML,SAPI可以分析XML标签,通过XML能够实现一些ISpVoice的成员函数的功能。比如设置语音库、音量、语速等。此时speak函数的dwFlags参数要设置为包含SPF_IS_XML。如:

// 选择语音库MicrosoftSampSpVoice->speak(L"<VOICEREQUIRED='NAME=MicrosoftSam'/>鸡啄米", SPF_DEFAULT| SPF_IS_XML,NULL);// 设置音量<VOLUMELEVEL='90'>鸡啄米</VOLUME>// 设置语言<langlangid='804'>鸡啄米</lang>

804代表中文,409代表英文。如果用函数SpGetLanguageFromToken获取语言时,0x804表示中文,0x409表示英文。

4)、设置SAPI通知消息。

SAPI在朗读的过程中,会给指定窗口发送消息,窗口收到消息后,可以主动获取SAPI的事件,根据事件的不同,用户可以得到当前SAPI的一些信息,比如正在朗读的单词的位置,当前的朗读口型值(用于显示动画口型,中文语音的情况下并不提供这个事件)等等。要获取SAPI的通知,首先要注册一个消息:

m_cpVoice->SetNotifyWindowMessage( hWnd,WM_TTSAPPCUSTOMEVENT, 0, 0 );

这个代码一般是在主窗口初始化的时候调用,hWnd是主窗口(或者接收消息的窗口)句柄。WM_TTSAPPCUSTOMEVENT是用户自定义消息。在窗口响应WM_TTSAPPCUSTOMEVENT消息的函数中,通过如下代码获取sapi的通知事件:

CSpEventevent; // 使用这个类,比用 SPEVENT结构更方便

while(event.GetFrom(m_cpVoice) == S_OK )

{

switch( event.eEventId )

{

...

}

}

eEventID有很多种,比如SPEI_START_INPUT_STREAM表示开始朗读,SPEI_END_INPUT_STREAM表示朗读结束等。

可以根据需要进行判断使用。

5)、speech sdk语音识别,识别语音生成英文/中文等字符串。

具体参考这篇文章:/artemisrj/article/details/8723095

3、编程实例

1)、首先将需要将WindowsSpeechSDK开发包的头文件和库文件所在路径添加到编译器中。

2)、封装tts操作类。

//TextToSpeech.h文件

//tts

#pragma once

#include <sapi.h> //包含TTS语音引擎头文件和库文件

#include <sphelper.h>

#include <string.h>

#pragma comment(lib, "sapi.lib")

class TextToSpeech

{

public:

TextToSpeech(void);

virtual ~TextToSpeech(void);

int Init();

int UnInit();

//枚举所有语音Token

int EnumAudioToken(CString arrayVoicePackageName[],int nVoicePackageNameCount);

//创建SpVoice

int CreateSpVoice();

//释放SpVoice

int DeleteSpVoice();

//重置SpVoice(用于临时清除朗读数据)

int ResetSpVoice();

//设置朗读速度(取值范围:-10到10)

int SetRate( long RateAdjust);

//获取朗读速度

int GetRate(long *pRateAdjust);

//设置使用的语音库

int SetVoice(ISpObjectToken *pToken);

//获取语音库

int GetVoice(unsigned int nIndex,ISpObjectToken** ppToken);

//设置音量(取值范围:0到100)

int SetVolume(USHORT usVolume);

//获取音量

int GetVolume(USHORT *pusVolume);

//朗读

int Speak(CString strContent,DWORD dwFlags=SPF_DEFAULT);

//朗读生成文件

int SpeakToWaveFile(CString strContent,char *pFilePathName,DWORD dwFlags=SPF_DEFAULT);

//暂停朗读

int Pause();

//继续朗读

int Resume();

//跳过部分朗读

int Skip(CString strItemType="Sentence",long lNumItems=65535, ULONG *pulNumSkipped=NULL);

protected:

IEnumSpObjectTokens * m_pIEnumSpObjectTokens;

ISpObjectToken * m_pISpObjectToken;

ISpVoice * m_pISpVoice;

BOOL m_bComInit;

};

//TextToSpeech.cpp文件

#include "StdAfx.h"

#include "TextToSpeech.h"

TextToSpeech::TextToSpeech(void)

{

m_pIEnumSpObjectTokens = NULL;

m_pISpObjectToken = NULL;

m_pISpVoice = NULL;

m_bComInit = FALSE;

}

TextToSpeech::~TextToSpeech(void)

{

}

int TextToSpeech::Init()

{

//初始化COM组件

if(FAILED(::CoInitializeEx(NULL,0)))

{

//MessageBox("初始化COM组件失败!", "提示", MB_OK|MB_ICONWARNING);

return -1;

}

m_bComInit = TRUE;

return 0;

}

int TextToSpeech::UnInit()

{

if(m_bComInit)

{

::CoUninitialize();

}

return 0;

}

int TextToSpeech::EnumAudioToken(CString arrayVoicePackageName[],int nVoicePackageNameCount)

{

//枚举所有语音Token

if(SUCCEEDED(SpEnumTokens(SPCAT_VOICES, NULL, NULL, &m_pIEnumSpObjectTokens)))

{

//得到所有语音Token的个数

ULONG ulTokensNumber = 0;

m_pIEnumSpObjectTokens->GetCount(&ulTokensNumber);

//检测该机器是否安装有语音包

if(ulTokensNumber == 0)

{

//MessageBox("该机器没有安装语音包!", "提示", MB_OK|MB_ICONWARNING);

return -1;

}

if(ulTokensNumber > nVoicePackageNameCount)

{

//缓冲区过小

return 0;

}

//将语音包的名字加入数组中

CString strVoicePackageName = _T("");

CString strTokenPrefixText = _T("HKEY_LOCAL_MACHINE\\SOFTWARE\\Microsoft\\Speech\\Voices\\Tokens\\");

for(ULONG i=0; i<ulTokensNumber; i++)

{

m_pIEnumSpObjectTokens->Item(i, &m_pISpObjectToken);

WCHAR* pChar;

m_pISpObjectToken->GetId(&pChar);

strVoicePackageName = pChar;

strVoicePackageName.Delete(0, strTokenPrefixText.GetLength());

arrayVoicePackageName[i] = strVoicePackageName;

}

return ulTokensNumber;

}

return -1;

}

//创建SpVoice

int TextToSpeech::CreateSpVoice()

{

//获取ISpVoice接口

if(FAILED(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_INPROC_SERVER, IID_ISpVoice, (void**)&m_pISpVoice)))

{

//MessageBox("获取ISpVoice接口失败!", "提示", MB_OK|MB_ICONWARNING);

return -1;

}

return 0;

}

//释放SpVoice

int TextToSpeech::DeleteSpVoice()

{

if(m_pISpVoice != NULL)

{

m_pISpVoice->Release();

}

m_pISpVoice = NULL;

return 0;

}

//重置SpVoice

int TextToSpeech::ResetSpVoice()

{

DeleteSpVoice();

return CreateSpVoice();

}

//设置朗读速度(取值范围:-10到10)

int TextToSpeech::SetRate( long RateAdjust)

{

if(m_pISpVoice == NULL)

return -1;

//设置播放速度

m_pISpVoice->SetRate(RateAdjust);

return 0;

}

//获取朗读速度

int TextToSpeech::GetRate(long *pRateAdjust)

{

if(m_pISpVoice == NULL)

return -1;

m_pISpVoice->GetRate(pRateAdjust);

return 0;

}

//设置使用的语音库

int TextToSpeech::SetVoice(ISpObjectToken *pToken)

{

if(m_pISpVoice == NULL)

return -1;

m_pISpVoice->SetVoice(pToken);

return 0;

}

//获取语音库

int TextToSpeech::GetVoice(unsigned int nIndex,ISpObjectToken** ppToken)

{

if(m_pIEnumSpObjectTokens == NULL)

return -1;

//设置语言

m_pIEnumSpObjectTokens->Item(nIndex, ppToken);

m_pISpObjectToken = *ppToken;

return 0;

}

//设置音量(取值范围:0到100)

int TextToSpeech::SetVolume(USHORT usVolume)

{

if(m_pISpVoice == NULL)

return -1;

//设置音量大小

m_pISpVoice->SetVolume(usVolume);

return 0;

}

//获取音量

int TextToSpeech::GetVolume(USHORT *pusVolume)

{

if(m_pISpVoice == NULL)

return -1;

//设置音量大小

m_pISpVoice->GetVolume(pusVolume);

return 0;

}

//开始朗读

int TextToSpeech::Speak(CString strContent, DWORD dwFlags)

{

if(m_pISpVoice == NULL)

return -1;

//开始进行朗读

HRESULT hSucess = m_pISpVoice->Speak(strContent.AllocSysString(), dwFlags, NULL);

return 0;

}

//朗读生成文件

int TextToSpeech::SpeakToWaveFile(CString strContent,char *pFilePathName,DWORD dwFlags)

{

if(m_pISpVoice == NULL || pFilePathName == NULL)

return -1;

//生成WAV文件

CComPtr<ISpStream> cpISpStream;

CComPtr<ISpStreamFormat> cpISpStreamFormat;

CSpStreamFormat spStreamFormat;

m_pISpVoice->GetOutputStream(&cpISpStreamFormat);

spStreamFormat.AssignFormat(cpISpStreamFormat);

HRESULT hResult = SPBindToFile(pFilePathName, SPFM_CREATE_ALWAYS,

&cpISpStream, &spStreamFormat.FormatId(), spStreamFormat.WaveFormatExPtr());

if(SUCCEEDED(hResult))

{

m_pISpVoice->SetOutput(cpISpStream, TRUE);

m_pISpVoice->Speak(strContent.AllocSysString(), dwFlags, NULL);

return 0;

//MessageBox("生成WAV文件成功!", "提示", MB_OK);

}

else

{

//MessageBox("生成WAV文件失败!", "提示", MB_OK|MB_ICONWARNING);

return 1;

}

}

//暂停朗读

int TextToSpeech::Pause()

{

if(m_pISpVoice != NULL)

{

m_pISpVoice->Pause();

}

return 0;

}

//继续朗读

int TextToSpeech::Resume()

{

if(m_pISpVoice != NULL)

{

m_pISpVoice->Resume();

}

return 0;

}

//跳过部分朗读 int TextToSpeech::Skip(CString strItemType,long lNumItems, ULONG *pulNumSkipped) { if(m_pISpVoice == NULL || strItemType.GetLength() == 0) return -1;

m_pISpVoice->Skip(strItemType.AllocSysString(), lNumItems,pulNumSkipped); return 0; }

3)调用实例代码。

TextToSpeech ttsSpeech;

ttsSpeech.Init();

CString arrayVoicePackageName[50] = {0};

int nVoicePackageNameCount = 50;

int nCount = ttsSpeech.EnumAudioToken(arrayVoicePackageName,nVoicePackageNameCount);

ttsSpeech.CreateSpVoice();

ISpObjectToken* ppToken = NULL;

ttsSpeech.GetVoice(0,&ppToken);

ttsSpeech.SetVoice(ppToken);

ttsSpeech.SetRate(0);

ttsSpeech.SetVolume(100);

ttsSpeech.Speak("我是中国人");

//ttsSpeech.SpeakToWaveFile("我是中国人","d:\\11.wav");

ttsSpeech.DeleteSpVoice();

ttsSpeech.UnInit();

4、注意事项

1)、sphelper.h编译错误解决方案

SAPI 包含sphelper.h编译错误解决方案 在使用Microsoft Speech SDK 5.1开发语音识别程序时,包含了头文件“sphelper.h”和库文件“sapi.lib”。编译时出错: 1>c:\program files\microsoft speech sdk 5.1\include\sphelper.h(769): error C4430: missing type specifier - int assumed. Note: C++ does not supportdefault-int 1>c:\program files\microsoft speech sdk5.1\include\sphelper.h(1419) : error C4430: missing type specifier - intassumed. Note: C++ does not support default-int 1>c:\program files\microsoftspeech sdk 5.1\include\sphelper.h(2373) : error C2065: 'psz' : undeclaredidentifier 1>c:\program files\microsoft speech sdk5.1\include\sphelper.h(2559) : error C2440: 'initializing' : cannot convert from'CSpDynamicString' to 'SPPHONEID *' 1> No user-defined-conversion operatoravailable that can perform this conversion, or the operator cannot be called1>c:\program files\microsoft speech sdk 5.1\include\sphelper.h(2633) : errorC2664: 'wcslen' : cannot convert parameter 1 from 'SPPHONEID *' to 'constwchar_t *' 1> Types pointed to are unrelated; conversion requiresreinterpret_cast, C-style cast or function-style cast 搜索了一圈,根据大家的经验汇总,应该是Speech代码编写时间太早,语法不严密。而VS对于语法检查非常严格,导致编译无法通过。修改头文件中的以下行即可正常编译:

Ln769 const ulLenVendorPreferred = wcslen(pszVendorPreferred);

const unsigned long ulLenVendorPreferred = wcslen(pszVendorPreferred);

Ln 1418static CoMemCopyWFEX(const WAVEFORMATEX * pSrc, WAVEFORMATEX ** ppCoMemWFEX)

static HRESULT CoMemCopyWFEX(const WAVEFORMATEX * pSrc, WAVEFORMATEX ** ppCoMemWFEX)

Ln 2372for (const WCHAR * psz = (const WCHAR *)lParam; *psz; psz++) {}

const WCHAR * psz; for (psz = (const WCHAR *)lParam; *psz; psz++) {}

Ln 2559SPPHONEID* pphoneId = dsPhoneId;

SPPHONEID* pphoneId = (SPPHONEID*)((WCHAR *)dsPhoneId);

Ln 2633pphoneId += wcslen(pphoneId) + 1;

pphoneId+= wcslen((const wchar_t *)pphoneId) + 1;

2)、Speak指定为SPF_ASYNC(异步)时,不要过早的释放ISpVoice对象,否则就没有声音,因为ISpVoice生命周期结束了,就不会播放。一般将ISpVoice对象放到类的成员变量中,类析构时才释放ISpVoice对象。

3)、Speak第一次朗读时很慢,因为加载引擎需要一段时间,可以使用线程预先Speak("",SPF_ASYNC)而加载引擎,但需要注意的是在初始化COM的时候使用CoInitializeEx,而不要使用CoInitialize。

/byxdaz/article/details/78443954

代码下载

C#使用微软TTS语音引擎实现文字转语音示例

转载:/article.asp?id=3845

在VS创建Windows窗体应用程序项目,添加引用COM组件Microsoft Speech Object Library:

TTS除了可以用于文字转语音,还可以将语音保存成文件,代码如下:

复制内容到剪贴板程序代码

using System;

using System.Threading;

using System.Windows.Forms;

using SpeechLib;

namespace WindowsFormsApplication1

{

public partial class Form1 : Form

{

public Form1()

{

InitializeComponent();

}

private void btnSpeak_Click(object sender, EventArgs e)

{

SpVoice voice = new SpVoice();

voice.Rate = -5; //语速,[-10,10]

voice.Volume = 100; //音量,[0,100]

voice.Voice = voice.GetVoices().Item(0); //语音库

voice.Speak("木子屋网址:");

}

private void btnSave_Click(object sender, EventArgs e)

{

SpFileStream stream = new SpFileStream();

stream.Open(@"F:\voice.wav", SpeechStreamFileMode.SSFMCreateForWrite, false);

SpVoice voice = new SpVoice();

voice.AudioOutputStream = stream;

voice.Speak("0,1,2,3,4,5,6,7,8,9");

voice.WaitUntilDone(Timeout.Infinite);

stream.Close();

MessageBox.Show("ok");

}

}

}

参考资料

[1].visual c#怎么使用tts:/question/93308685.html

[2].c#之TTS发音程序:/kkfdsa132/article/details/5394700

[3].关于Microsoft Speech SDK 中TTS的研究 [转]:/lxinxuan/archive//03/17/678606.html

[4].Speech两种使用方法:/MaxIE/p/3159994.html

[5].微软TTS语音引擎编程入门:/software/135.html

[6].SpVoice Interface (SAPI 5.4):/en-us/library/ee125640.aspx

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。