シンガポールのビジネス情報サイト AsiaXビジネスTOP【センスオブワンダー】 AIと人間の適材適所で、より付加価値の高...

企業紹介

2020年11月13日

【センスオブワンダー】 AIと人間の適材適所で、より付加価値の高いコンテンツ作成を手助け


 
 さまざまな場面で話題になっている「AI(人工知能)」。AIとは、人間しかできなかった高度な知的作業などを人工のシステムによって行うことで、総務省の平成28(2016)年度版の「情報通信白書」でも「人工知能(AI)の急速な進歩によって、それまで人が行っていた業務を人工知能(AI)が代替する可能性やその影響などが活発に議論されるようになってきた状況を踏まえ、……(後略)」(第1部第4章「ICTの進化と未来の仕事」の第2節「人工知能(AI)の現状と未来」より引用)と記載されるまでにその認識が広まっています。そしてそのAIが活躍している分野のひとつが、翻訳やテープ起こし(同時字幕)の分野です。
 
 音源から文字に書き起こす作業が「テープ起こし」です。このテープ起こしは、インタビューなどの「メディアの仕事」と想像しがちですが、企業内の議事録の作成、医療セミナーの資料化、法関連で使用される資料作成など、利用される用途は多岐に及んでいます。そして、そのテープ起こしは「1時間の音源を文字に起こすことに5時間程度はかかる」くらいに大変な作業なのです。
 
 「この作業を短縮・なくすことができたなら…」そんな要望に、AIを使ってより精度の高い「転写」のサービスを展開しているのがセンスオブワンダー(Sense Of Wonder Group Pte. Ltd.)。そのサービスの内容は、驚きのスピードと精度の高さを誇り、価格も手ごろなものとなっています。この記事では、センスオブワンダーの概要や沿革、サービスの内容などを最高執行責任者(COO)の鈴木信彦さんへのインタビューを交えて紹介していきます。
 

センスオブワンダー社の成り立ち

シンガポールの社員は、現在5名。写真は中心として活躍している阿部享さん(左)、鈴木信彦さん(中)、中村亮太さん(右)。

 
 センスオブワンダーの親会社となるのが、日本にあるセンスオブワンダーグループ。このセンスオブワンダーグループが2017年に株式会社イチベルを買収したことをきっかけに、AIを使った「音声認識」サービスを開始したとのこと。日本国内では、金融機関・物流会社・地方公共団体などからの支持を受け、2019年2月にシンガポールへと進出しました。シンガポール進出の理由は、シンガポールが多言語国家であることから、翻訳などを含めた需要が多く、さらには1人当たりのGDPが高いために市場の伸びも期待できるということからでした。
 
 シンガポールで一番対応しているサービスが、アメリカやシンガポールで開催されているウェビナーに英語で文字起こしをして、それを日本語に翻訳して字幕を付ける作業だといいます。テープ起こし+翻訳にも対応してくれるセンスオブワンダー。ですが、AIによるテープ起こしといっても、そのサービス内容はなかなかピンとこないのではないでしょうか。
 
 そこで次からは、鈴木さんとのインタビューを紹介していきます。センスオブワンダーのサービスの内容や特徴、それだけではなく、AIの強みや弱み、センスオブワンダーが描くAIの未来も語っていただきました。
 

Interview:センスオブワンダーが目指すAI音声認識の未来

テープ起こしにおけるAIの利点

 ―センスオブワンダーが提供しているサービスについて教えていただけますか?

 
 鈴木さん:サービスの内容は、日本で昔から「テープ起こし」と言われてるものになります。「テープ起こし」は、人間の手で起こすものもあれば、他社も提供しているAIを使ったものなどいろいろあります。その中で、私たちの強みとなっているのが、「データをお預かりしてからお返しするまでの時間が早い」という点です。加えて、大量のデータを処理できるということも特徴の一つです。サービスにはいくつかのパターン(後述)がありますが、一番早く対応できるものでは、1時間の音源ファイルの場合、お預かりから2~3分程度でお返しできる場合もあります。ただ正直にお話しすると、2~3分でお返しするパターンでは精度にばらつきが出てしまいますね。
 

 ―2~3分で本当にある程度の精度のものが出てくるのならば、インタビュー記事を書く側からすると、とても作業の時間が短縮できるように思えます。

 
 鈴木さん:そう言っていただけると嬉しいです。サービス提供のきっかけも、使っていただく方々の「時間の使い方」を考えてのことでした。例えばインタビュー記事などの場合、文字起こしに4~5時間も使ってしまうと、それだけで疲れてしまいます。そんな疲弊してしまう時間を、コンテンツ制作のクオリティアップに回していただきたいのです。テープ起こしをAIがサポートして、人間は感性が重要になるクオリティアップの部分に注力する。時間の配分を変えていけたらいいな……ちょっと大袈裟になりますが、日本にはもっと付加価値の高いコンテンツを世界に発信して欲しい、付加価値の高いものを生み出すことにもっと時間を使って欲しいと考えたからこそ、このサービスを始めたとも言えます。
 

 ―テープ起こしにAIを使うことによる利点はどこにあるのでしょうか?

 
 鈴木さん:先ほどの繰り返しになってしまいますが、スピードです。圧倒的に作業時間を削減できます。あとAIは疲れないので、何時間でも作業を続けることもできます。また、AIは数回教えるとその単語を覚えます。その強みは、医療や法律など、日常ではあまり目にしないような専門用語を使う業種のほか、各会社で使われている社内用語などで力を発揮します。AIだけでテープ起こしをすると間違えることも多いのですが、何回も何回も同じ分野を教えと、徐々に正解率が上がっていくのです。そしてこれは今後伸びていく部分ではあるのですが、略語を正式な名称に置き換えることも可能です。略語というのは、私たちの業界では「ルールベース(AIおよびそのシステムがルールに基づいて動くこと)」と呼ばれるもので、「クランケと言ったら患者さんのことです」のようなルールを作って変換するように登録するのです。ですが、「この略語はこの単語に相当する」というルールは、クライアント様によって微妙に変わってくる部分でもあるので、だからこそクライアント様には長くお付き合いさせていただいて、その業界で使用する言葉を今のうちからシステム取り込むことをお願いしています。
 

 ―利点をお伺いすると、未来が楽しみになってきますが、逆にAIによるテープ起こしの問題点はありますか?

 
 鈴木さん:たくさんあります。先ほどお話しした、1時間のデータを2~3分でお戻しするサービスでは、正確度は60%から90%ぐらいの範囲でばらつきが出ます。それは、編集者や記者の方々なら、読むに堪えないというか……2~3行読んで嫌になってしまうような文章になることもあるくらいです。なぜそうなってしまうかというと、周りが静かで、比較的ゆっくりお話しをしていると精度が上がる可能性も高いのですが、たくさんの人がいて発言が被るとか、早口の方がいるとか、あとは周囲でノイズがいっぱいあるとか……これらの要素を筆頭にさまざまな要素で精度が下がってしまうのです。お預かりする音源ファイルを実際に聞いてみないと、「弊社でお預かりすると精度は間違いなく85%出ます」のような精度の見積もりをお伝えできないことが、AIの難しいところですね。
 

 ―雑音が入ると精度が下がっていくという点について、もう少し詳しく教えていただけますか?

 
 鈴木さん:雑音というのは、「周りにいる人達の話し声やざわつき」、「車の走行音」などです。あとは本当に細かくいうと、会議室で録音された時のパソコンのキータッチ音も雑音になりますね。
 

センスオブワンダーのサービス料金

    シルバー   ゴールド   プラチナ 
 価格(1分あたり)   0.25Sドル〜   2.5Sドル〜
 (現在は特別キャンペーンで1Sドル~) 
 4Sドル〜
 (同左。2.5Sドル~) 
 オーディオタイプ   ステレオ   ステレオ/モノラル   ステレオ/モノラル 
 参加人数   1名   2名まで   2名以上 
 精度   最大80%   最大99%   最大99% 

 

 ―サービスには、シルバー・ゴールド・プラチナがありますが、それぞれの違いはどこにありますか?

 
 鈴木さん:順番にご説明しますと、シルバーは「AIのみの作業」、ゴールドが「AI+人間の作業」、プラチナは「AI+人間+人間の作業」になります。シルバーは、先ほど出てきた1時間のものを2~3分でお返しするサービスです。精度は正直ばらつきがあるので、AIに慣れてらっしゃる方で「ゆっくりしゃべって、雑音がない場所で録音していれば精度が出る」ということを十分に理解した方にお勧めするサービスです。
 
 ゴールドは、シルバーではかえって手間がかかる、もしくは「録音したものからそのまま文字起こしをしてほしい」とご希望の方に、読める内容にまで精度(90%)を上げて「違和感なく普通に読める文章」にしてお渡しします。
 
 プラチナは、日本でいう整文に近いものになります。ゴールドのあとにもう一人人間の作業(校閲)が加わります。校閲者のチェックも入りますので、お客様のご指定の表記方法にも対応することが可能です。
 

シルバーとゴールドの精度の違い

 今回インタビューで実際にシルバーとゴールドでテープ起こしをお願いしました。その違いが以下になります。
 
 ・シルバー

 
 ・ゴールド

 
 確かにシルバーの精度は少し低く感じます。また、文章内の「遠隔歴史」という表記は、データの積み重ねで「沿革」「遠隔」が適切に記載されていくAIの学習・進化の部分だと感じます。専用のAIを構築していただくことでこのような同音意義語などの使い分けの精度も上がっていくはずです。今回のシルバーのデータの精度が低かった原因・改善点を鈴木さんに伺ってみました。
 
(鈴木さんコメント)
 今回はインタビュアーが丁寧にはっきりお話されるプロのライターの方で、マイクも性能の良いものをお使いいただいたので、ご発話のほとんどを拾えています。遠隔と沿革という同音異義語については、AIへ正解を教えることで、精度の向上が見込めると思います。具体的には、「えんかく」という単語の後に、「れきし」が来ているのですが、単語の組み合わせとして「遠隔+歴史」よりも「沿革+歴史」のほうが、発生する確率が高いということを教えることになります。
 
 このように文脈に応じて、どのような単語が正解となりやすいのかを繰り返し教えることができるのが、我々がお客様毎に専用エンジンをご提供することの価値だと思っています。つまり、一般的には「沿革+歴史」が正解となる場合が多いけれども、あるお客様にとっては「遠隔+歴史」が正解ということもあるでしょうし、その場合には「遠隔+歴史」が正解という結果を返せるようにトレーニングができるわけです。

 

 ―録音音源への参加者の人数は、関係ないのですか?

 
 鈴木さん:シルバーとゴールドは2人までのご参加でお願いをしております。プラチナは何人でも大丈夫なのですが、8人とか10人のような大人数になってしまうと、校閲などの人間が担当する部分の負担が増えるので、お時間をいただく形になります。
 

 ―複数人で会話をしてる場合、誰の発言なのかを区別して記載していただけるのでしょうか?

 
 鈴木さん:はい、対応しております。事前に参加人数と男性・女性の内訳を伺っておいて、男性1・男性2・女性1・女性2とラベルを貼っていく感じになります。
 

 ―4人での座談会を1時間で録音したデータでプラチナのサービスを選択したとします。どのくらいの時間でお戻しいただけるのでしょう?

 
 鈴木さん:今回のインタビューと同じ環境でしたら、2営業日いただければお返しできると思います。
 

 ―2人の対話式のインタビューでしたら、どのくらいになりますか?

 
 鈴木さん:早ければ1営業日でお返しします。インタビュー記事は、録音されたことをそのまま使うのではなくて、構成などを考えて文章を組み立て直しますよね。その場合、99%の精度で書き起こすことはあまり必要とされていないと思いますので、発言と大きなずれがなく、多少の表記ゆれをお許しいただけるのであれば、ゴールドをお勧めします。逆にプラチナは、お出ししたそのまま状態で「議事録として会社の付属資料として使いたい」「科学研究費の報告に使いたい」などの場合にお勧めしています。こういった資料では、精度が重要になりますから、人間の手による校閲の作業が加わるプラチナが適切だと思っています。
 

AIの問題点とこれから

 ―AIの現在の問題点とこれからの改善点、将来についてはいかがでしょうか?

 
 鈴木さん:初めてご利用されるお客様の場合は、お客様の利用意図や録音状態、AIへのご理解度などの事前情報がないため、どのサービスをお勧めするのかの判断が難しくなります。シルバーをご利用いただいた場合、お客様をがっかりさせてしまうことがあるのも事実です。だからこそ「どういう目的でのご利用ですか?」「何をお望みですか?」「重要なのは、精度ですか?速さですか?両方ですか?」を、メールなどで事前にすり合わせることが大事だと思っています。
 
 「AIを使ってみたけど、がっかりだった」などのご感想が増えていることは、AIが世の中に認識されつつあるからこそだと考えています。だからこそ、録音方法の改善点を具体的に説明して「お互い負担が減って、お値段も下がります」とお伝えして、AIへの認識と精度のばらつきを減らしていくことや、専用のAIをご用意させていただく利点(囲みコラム参照)をお伝えして、継続的にコミュニケーションを取らせていただける関係を構築していくことも大切だと思っています。
 
 今は日本語と英語(米、英、シンガポール)のテープ起こしに対応していますが、理論上はシンガポールで使われているマレー語や中国語にも対応が可能なので、東南アジアで使われているいろんな言語に対応したサービスをつくっていきたいと思っています。
 
 
———————————–
 今回、実際にシルバーとゴールドのサービスで書き起こされたデータをいただき、コラムで対比しました。率直なところは、シルバーは精度が低く、そのまま使うことは難しいと感じました。しかし、インタビュー記事の場合、いくら精度が高いからといっても、録音データで交わしている会話を文字通りに使用するわけではないので、シルバーの段階くらいから作業を始めてしまうのも費用対効果としては効率がいいのかもしれません。
 
 テープ起こしはとても集中力が必要な大変作業です。その作業をいかに効率的に行っていくのか?時間を有効に使うためにも、センスオブワンダーのサービスを利用して、人間とAIを適材適所に配置してみてはいかがでしょうか。
 


鈴木 信彦(すずき のぶひこ)
Sense Of Wonder Group Pte. Ltd. 
Board Director, Chief Operating Officer
 
株式会社三和銀行入社後、法人営業、企画部門などを歴任。2019年にセンスオブワンダーグループへ参画後、来星。JETRO・東京都が主催するアクセラレータプログラム(運営は500Startups Singapore)に採択され、現在はシンガポール市場への本格参入に向けた事業開発に専念している。プライベートでは3児の父で、仕事の合間に家族でローカルフード巡りをするのが息抜き。

おすすめ・関連記事

シンガポールのビジネス情報サイト AsiaXビジネスTOP【センスオブワンダー】 AIと人間の適材適所で、より付加価値の高...