2017年はgoogle Home、amzon echo、LINE clovaなど、各社が日本市場にスマートスピーカーを展開し、新しいデバイス市場の誕生ということもあり、AIスピーカーが大きな注目を浴びた1年でした。(当社でもGoogle HomeとAmazon echoやecho spotを購入してみて、どういう使い方ができるのかや、どちらが賢そうか?など、試して遊んでみています。)
スマートスピーカーにおいては、主に視覚ではなく聴覚で情報伝達が行われるため、新しいメディアの誕生を予感させるという意味でマーケティング観点でも興味深いトレンドです。
またAIスピーカーが発売され始める以前から、最近はGoogle がCMでユーザーに音声検索を喚起するようなコミュニケーションを取るなど、ここ最近音声検索に対する注目度がましています。
音声検索は、ユーザーの行動、ひいては我々マーケティングに携わるものに対してどのような影響を与えるでしょうか。

【ユーザーの行動が音声検索に移行するのは確実?】

現在グローバルでは、検索の約20% が音声検索となっているとGoogleが公表しました。
その他にも、様々な機関がユーザーのユーザーの行動が「音声検索」にシフトしているという調査結果をレポートしています。
音声検索の広まりに関するレポート
「Cortanaは現在1億3,300万人の月間ユーザーを抱えている」Microsoft / Tech Radar
http://www.techradar.com/news/software/operating-systems/why-100-million-monthly-cortana-users-could-be-a-bigger-deal-than-350-million-windows-10-installs-1325146
「16-24歳の25%がモバイルで音声検索を使用」Global Web Index
https://www.globalwebindex.net/blog/25-percent-of-16-24s-use-voice-search-on-mobile
音声アシスタント ユーザーの 52% は、音声テクノロジーを 1 日に数回、またはほぼ毎日使用していると回答しています。(スマートオーディオレポート、2020)
https://www.hubspot.com/marketing-statistics
これらは米国での調査結果なので、日本もそのまま同じとは言えません。米国と日本との大きな差異として、米国の方が車中心の生活を送っている人の割合が高いということが挙げられます。周囲に気を使う必要があり両手が自由な電車の中では音声検索はあまり効果的ではありませんが、プライベートな空間かつ両手がふさがる運転中の方が音声検索が使われやすいのは当然のことなので、日本での音声検索の浸透度は米国よりも低いことが予想されます。
しかしながら、日本においても音声検索は着実に広まっています。
特定のセグメントにおいては、「ほぼ100% のユーザー」が音声検索をしている属性があります。
どんな特徴をもった人たちかわかりますか?

【デジタル・ネイティブは、音声検索でインターネットのドアを開く】

 class=
30代の筆者は、10歳頃初めてパソコンに触りブラインドタッチを覚え、高校生の頃に家にインターネットがつながりました。さらに言うと、物心ついたころからしゃべりはじめ、幼稚園?でひらがなを読めるようになり、鉛筆を持ち、字を書く、ということを経て情報に接しています。
一方、今の5歳より若い、今後生まれてくる世代の多くは、「字を読み書きするよりも早く」スマホを通じてYouTube などの動画サイトでインターネットに繋がる様になってきています。
「字も読めない小さい子供が、Youtubeでアンパンマンなどの動画を自分で検索して楽しんでいる」
というのは、小さいお子さんがいる家庭ではよく聞く話です。
デジタルネイティブ世代は、情報のインプット/アウトプットをする手段を覚える順番が我々とは違うのです。
非デジタルネイティブ:字を読む → 字を書く → ブランドタッチ → (インターネット)→ スマホ(フリック) → 音声検索?
デジタルネイティブ:スマホ(=インターネット=音声検索)→字を読む→字を書く
このような世代が成長し、市場の多くを占めるようになった時代、むしろ音声以外の手段で検索しているケースの方が少なくなってきているということは確実でしょう。

【音声検索に対するGoogleのテクノロジー】

Googleの音声検索はいつから始まっているでしょうか?ユーザーが一般的に音声検索を使うようになってきているのはここ最近のことですが、なんとGoogleは早くも2001年に、音声検索に関する特許論文を出願しています。
(Voice interface for a search engine: https://www.google.com/patents/US8380502
また、抑揚、強調箇所を分析し、探しているものを判別したり、
Resolving pronoun ambiguity in voice queries
https://www.google.com/patents/US9529793
訛りによって返す検索結果を調整したり
Accent-influenced search results
https://www.google.com/patents/US8417530
と、早くから「テキスト情報(システムに読み込ませるためのクエリ)」ではなく「コミュニケーション手段(日常会話」としての情報伝達からユーザーの意図を読み取る技術を開発しており、こういった技術の集大成が、Google Homeや アシスタントの音声検索に生かされています。
今はまだ、ネットの世界が「WEBブラウザで視覚的に」情報をやり取りするのに最適化されていますが、こういったユーザーの動きと技術の発達に応じ、WEBの世界が多層的な構造を持つことになっていくのでしょう。

【音声検索がSEOに与える影響】

音声検索が、長期的にSEOに大きな影響を与えるのは間違いないですが、短期的にその世界が来るのかというと別の話です。
音声検索は、現在のSEOに対してどのような影響を与えるのでしょうか?
ユーザーが音声検索を使う動機として、2つのシチュエーションが考えられます。
1つ目が、単純な「テキスト情報入力インターフェース」として音声を用いているケース。
2つ目が、音声検索によりインターネットの利用シチュエーション自体が拡張されているケースです。

『入力インターフェースとしての音声検索とSEO』

1つ目のインターフェースとしての音声入力については、基本的にはPC、スマホ、タブレットといったデバイスで(主に)インターネットを利用している際に、入力する手間として音声検索が便利だから、という理由で利用されるケースです。
この変化からは、ユーザーの検索クエリ(文章)の変化が起こります。
元々、「検索」は「該当する文字列と合致する文字列を検索する」という機能から始まっています。エクセルやワードの「検索」と同じですね。
この場合ユーザーは、精度良く検索するために「無駄な単語は含まず」、最低限の「鍵となる単語=文字通り【キーワード】」を用いて検索します。
単語をスペースで区切ることで部分一致を示して検索するユーザーの習慣ができてきたのも、このためです。
一方音声検索では「単語を区切る」ということができず、ユーザーは「会話をするように」検索するようになっていきます。これは、AIの発達により、会話的な文章の意図とユーザーが期待する回答を、Googleを始めとする検索エンジンで返せるようになった、ということの裏返しでもあります。
GoogleやMicrosoft などの検索エンジンプレイヤーは、今後「Search Engine (検索エンジン)」ではなく、「Answering Engine(回答エンジン?)」となるという言い方で表現しています。
※実際にはGoogleの(少なくとも日本語の)理解力はまだまだ低いため、ユーザーの行動が「キーワード検索」から抜け出すのはもう少し先のことになりそうです。
例えば、「日本で一番長生きの男性」という検索は、人であれば「最高齢の個人のことが知りたいんだな、とわかりますが、Googleは少しズレた回答をしてきます。

ただ、この検索結果で、1位・2位の「長寿都道府県」ではなく、3位の「最高齢個人」の結果をクリックする人が多くなれば、その結果が上位表示されるようになりますし、この「日本で一番長生きの男性」というフレーズが、『日本で一番長生き』が『男性』を修飾している、ということも学習していくでしょう。

『音声入力が拓く新しいインターネットの形』

2つ目のシチュエーションについては、AIスピーカーに指示して特定の音楽をかけさせたり、東京の天気を聞いたり、スマホにGoogleマップ道案内させたりと、音声検索が「インターネット」というワールドワイドなWEBなだけでなく、その入口であるデバイス(スマホや音声アシスタント)が、期待するアウトプットを返すようになる1つのきっかけとなる、というものです。
これについては、「構造化データ」がカギとなります。
今、インターネットの世界は、各サーバーにある「html」という構造言語でブラウザに表示されるものをcss というデザイン、javascript という機能に乗せて表示しています。各ページに書いてある情報はあくまでもテキスト情報で、「言語的に」捉えるしかない状態です。
一方、「構造化データ」の導入が進むと、これらのテキスト情報が「属性情報」を持った存在へと変わっていきます。
「商品」「求人」「不動産」「レシピ」「会社」といった「性質的にデータベースとして管理できるもの」が、構造化データとしてインターネット上に蓄積されることにより、音声検索によりそれらの存在へダイレクトにアクセスすることが可能になる日もそう遠くないでしょう。
構造化データは、元々は特定の機能のために実装するものではなく、上記のような「セマンティック・ウェブ(意味を持ったWEBの世界)」を実現していくという1つの方向性に従ったものです。
今はリッチスニペットやadwordsの商品リスト広告、Google Job Postingなど、主にGoogle内の機能として活用されるための実装となっていますが、今回のAIスピーカーの拡大により、「情報がAIにより拾われるためのタグ付け」としての位置づけが拡大する可能性が高いです。
流通インフラが卸や市場などを飛び越えた垂直統合型のパラダイムシフトを可能にしたように、こうした一連の動きは、情報のマッチングサービスに対しても事業構造の変革を迫るものとなっていくと考えられます。
そうした時代に取り残されないために、各企業は、「独自の情報(データ/コンテンツ)」を保持し、整理しタグ付けをしていくことが、今後のデジタル時代を生き残る1つのキーワードとなっていくでしょう。
情報の流通を行っているため「自社独自の情報が無い」というサイトの場合は、レビューやアグリゲーション、レコメンドなどの独自の付加価値をどう構築していくかが、カギとなりそうです。

お気軽にご質問、ご相談ください

関連タグ

中村研太

京都大学理学部卒。Webマーケティングスペシャリストとして、SEOや広告などのマーケティング施策の最適化による実績多数。

関連ブログ