音声合成開発キット：よくある質問

よくある質問

1. 音声合成とは何ですか？
2. どのような文字が使用できますか？
3. 音声の種別は何がありますか？
4. 設定項目には、どのようなものがありますか？
5. １２：３４：５６のような時刻表記のテキストは、どのように読まれるのですか？
6. ２０２０／１／８のような日付表記のテキストは、どのように読まれるのですか？
7. ０１２３－４５－６７８９のような電話番号表記のテキストは、どのように読まれるのですか？
8. ０４Ｆｅｂ２０２０のようなメールで使う日付表記のテキストは、どのように読まれるのですか？
9. （月）のような曜日表記のテキストは、どのように読まれるのですか？
10. アルファベットの読みはどのように読まれますか？
11. 数字の読みはどのように読まれますか？
12. 少数はどのように読まれますか？
13. 記号はどのように読まれますか？
14. 文の終端文字にはどんなものがありますか？
15. ふりがなをふった文字列の場合は、どのように読まれますか？
16. 合成されたものの出力はどのような形式ですか？
17. 辞書には、どんなものがありますか？
18. ユーザ辞書の登録・削除はどのようにやりますか？
19. 辞書に登録されている単語数はどのくらいですか？
20. Windows版の音声合成モジュールの形態はDLLでしょうか？ COM（ActiveX）でしょうか？
21. インターフェースはSAPI(Microsoft Speech API)などに対応していますでしょうか？
22. 無声化とは？
23. モーラ(拍)とは？

FAQ ( 回答 )

1. 音声合成とは何ですか？

コンピュータを用いて音声を生成する技術で、特に最近では、漢字かな混じりをはじめとするテキストデータを音声に変換する技術の意味で使われます。

2. どのような文字が使用できますか？

漢字かな混じりとして、シフトJISコードです。

3. 音声の種別は何がありますか？

女声：1種類、男声：1種類となっております。

4. 設定項目には、どのようなものがありますか？

読み上げの速度(10段階)、声の高さ(10段階)、音量(10段階)、感情タイプ(4タイプ)、音響タイプ(2タイプ)、抑揚(10段階)です。また、文末のポーズ長として、「0．1秒」、「0．2秒」、「0．3秒」、「0．4秒」、「0．6秒」「0．8秒」、「1．0秒」、「1．5秒」、「2．0秒」、「2．5秒」の10段階が可能です。

5. １２：３４：５６のような時刻表記のテキストは、どのように読まれるのですか？

時刻の略記を解析させることが可能です。解析処理を実行した場合は、
「ジュウニジサンジュウヨンプンゴジュウロクビョウ」と読みます。

6. ２０２０／１／８のような日付表記のテキストは、どのように読まれるのですか？

日付の略記を解析させることが可能です。解析処理を実行した場合は、
「ニセンニジュウネンイチガツヨウカ」と読みます。

7. ０１２３－４５－６７８９のような電話番号表記のテキストは、どのように読まれるのですか？

電話番号の略記を解析させることが可能です。解析処理を実行した場合は、
「ゼロイチニイサン　ヨンゴー　ロクナナハチキュウ」と「－」を読み飛ばして数字のみを読みます。ただし、全てのパターンを解析できるわけではありません。

8. ０４Ｆｅｂ２０２０のようなメールで使う日付表記のテキストは、どのように読まれるのですか？

メール日付の略記を解析させることが可能です。解析処理を実行した場合は、
「ニセンニジュウネンニガツヨッカ」と読みます。ただし、全てのパターンを解析できるわけではありません。

9. （月）のような曜日表記のテキストは、どのように読まれるのですか？

曜日の略記を解析させることが可能です。解析処理を実行した場合は、「ゲツヨービ」と読みます。

10. アルファベットの読みはどのように読まれますか？

３種類の読み方を指定できます。

1.: 自動判定
基本辞書に登録されている英単語は、登録した読みとなります。登録されていない単語はローマ字読み、英語読み、アルファベット読みの順になります。
2.: 未知語アルファベット
基本辞書に登録されている英単語は、登録した読みとなります。登録されていない単語は、アルファベット読みになります。
3.: 全アルファベット
全ての単語がアルファベット読みになります。

11. 数字の読みはどのように読まれますか？

３種類の読み方を指定できます。

1.: 自動判定
数字表現の長さが２４桁以下、かつ先頭が０以外の場合、桁を付与して数字を読みます。
例）１２３４(センニヒャクサンジュウヨン)、２４桁の場合、単位は「千垓(せんがい)」が最大です。
数字表現の長さが２５桁以上、または先頭が０の場合、棒読みになります。
2.: 桁読み
数字表現の長さが２４桁以下の場合、桁を付与して数字を読みます。ただし、先頭が０の場合、０は取り除かれます。
また、数字表現の長さが２５桁以上の場合、棒読みとなります。
例）１２３４５６(ジュウニマンサンゼンヨンヒャクゴジュウロク)と読みます。
3.: 棒読み
数字の先頭から順に読みます。
例）１２３４５６(イチニーサンヨンゴーロク)と読みます。

12. 少数はどのように読まれますか？

少数も通常通り読み上げます。
例）１２３４．５６(センニヒャクサンジュウヨンテンゴーロク)
整数部の桁読みは、２４桁以下までとなります。２５桁以上は、棒読みとなります。

13. 記号はどのように読まれますか？

それぞれの記号について、読む／読まないを指定できます。
下表の文字単位、グループ単位での設定が可能です。

記述記号の「、（読点）」、「。（句点）」、「，（カンマ）」、「．（ピリオド）」、「？（疑問符）」、「！（感嘆符）」が入力文に単独で存在していると、読み上げません。

14. 文の終端文字にはどんなものがありますか？

下表のものが終端文字列として設定できます。
音声合成では、文終端として設定した文字で区切って、区切った単位毎に合成します。
２００文字までに文終端文字が現れなかった場合、２００文字で区切られます。

No.	文字種別	表記（名称）
1	0	。（句点）
2	1	、（読点）
3	2	？（疑問符）
4	3	！（感嘆符）
5	4	，（カンマ）
6	5	．（ピリオド）
7	6	（改行）
8	7	（２連続した改行）

15. ふりがなをふった文字列の場合は、どのように読まれますか？

ふりがなを付けた文字列の作り方で、ふりがなのみを読むことができます。ふりがなのふりかたには2通りあります。

1.: 特殊括弧によるふりがな文字列
特殊括弧で指定するふりがな文字列の有効／無効を設定します。
書式は、【対象文字列；ふりがな】です。セミコロン(；)は全角/半角どちらでも可。読みは半角カタカナ、全角カタカナ、ひらがなのいづれでも可です。
例：【下総；シモウサ】は【千葉；チバ】の昔の地名です。
2.: 後置括弧によるふりがな文字列
以下のような後置括弧で指定するふりがな文字列の有効／無効を設定します。
例：青天の霹靂（へきれき）とはよく言ったものだ。

16. 合成されたものの出力はどのような形式ですか？

PCM,μ-lawです。

17. 辞書には、どんなものがありますか？

基本辞書を標準でご提供します。この他に、お客様が登録・削除可能なユーザ辞書がございます。

18. ユーザ辞書の登録・削除はどのようにやりますか？

辞書の登録・削除は、単語登録ユーティリティにて実施していただけます。登録には、表記、読み、品詞、アクセントを入力していただきます。

19. 辞書に登録されている単語数はどのくらいですか？

基本辞書に約130,000語の単語が登録されています。辞書に登録されていなくてもローマ字読みなど、言語解析処理により正しく読める単語もあります。

20. Windows版の音声合成モジュールの形態はDLLでしょうか？ COM（ActiveX）でしょうか？

DLLです。

21. インターフェースはSAPI(Microsoft Speech API)などに対応していますでしょうか？

対応していません。

22. 無声化とは？

日本語を自然に発声するための必要な動作で、無声子音に挟まれた「イ」音や「ウ」音は時として発声を省略される場合があります。例えば「テキスト」と発声する場合、「ス」の母音部「ウ」ははっきりと発声されません。「無声化する」を選択すると、無声化するべき語句かどうかを自動判定し、より自然な合成音を生成することができます。
音声合成の際には、無声化をする／しないの設定が可能です。

23. モーラ(拍)とは？

モーラとは大体カナ1文字で書かれる音を指します。例えば、「鳥（トリ）」は2拍で、「桜（サクラ）」は3拍と数えます。長音（ー）、撥音（ン）、促音（ッ）も1拍に数えます。拗音（ャュョヮ）は例外で、「キャ」「キュ」「キョ」「クヮ」などはそれぞれ一文字分の長さで発音されるので、カナ2文字で1拍と数えます。従って、「点（テン）」は2拍、「12点（ジューニテン）」は5拍となります。