「共起」語を通して隠されたデータを見つけ出す

データの整形加工の考え方
人間は文章を読む時、一つのテキストから様々な文脈を読み取り、イメージしています。人工知能にはまだまだ難しい分野ですが、ある程度整形したデータからはその端緒となる要素を導き出すことが出来ます。今回は、Googleなどの検索エンジンにも取り入れられている「共起」という概念について、株式会社アイズファクトリー データサイエンス部矢野氏のエントリーです。

共起語のイメージ

学習し続けるレコメンドエンジンを作る「共起」

「共起」(きょうき)という言葉をご存じですか?
馴染みのない言葉ですが、「共起」とはある文中に含まれる特定の言葉に関連して、同時に別な言葉がよく使用されることをいいます。
この「共起」という現象、ビジネスにあてはめると面白いものが見えてきます。
結論から書きますと、全文検索エンジンを使って、学習し続ける「レコメンドエンジン」を作ることができます。
弊社のあるプロジェクトでは、お客様から索引処理用の大量文書データ群を定期的に受領。
データ整形加工を経て全文検索エンジンに投入、分析索引処理を自動処理化するという開発をしています。
四年に渡ってそのサンプリング結果を報告し続けています。
文書データの準備はお客様側で行っていただき、弊社は受領以降を作業。今回はその「データの整形加工の考え方」で気づいた点をお伝えしましょう。

「共起」をとらえ、検索エンジンにいかす

文書データには各「執筆者」がいます。
単独・共同作業問わずその「執筆者」が文章を書きます。
文章にはその「執筆者」の個性や嗜好が表現されます。ある程度の定型表現もあります。
お客様からのご依頼は、はじめにこの定型表現を消去するように、と言うものでした。
文書データの整形加工した結果を全文検索エンジンに一旦投入しています。
守秘義務上その全貌は本稿ではつまびらかにはできませんが、弊社では独自のデータの整形加工をも行い、全文検索エンジンを使って「共起」という現象をとらえられるようにしています。

試しに「ゲノム」という言葉で検索してみます。
適合文書が全文検索エンジンから結果として返され表示されました。
中によく含まれている単語は限られたものでしかありません。
主だったところを目で拾って列挙しますと

「遺伝子操作」「配列」「遺伝子」

このような言葉が並んでいました。

では次に「ラーメン橋」という言葉で検索してみます。今回も適合文書が全文検索エンジンから結果として返され表示されました。
やはり中によく含まれている単語は限られたものでしかありません。
主だったところを目で拾って列挙してみますと

「コンクリート構造」「高架橋」「鉄道橋」

このような言葉が並んでいました。医学や建築に疎い場合でも、このように関連した言葉の情報が返されるとイメージを持つことができます。

このプロジェクトのデータ整形加工と全文検索エンジンへの投入の実施実績は、弊社には大きな財産です。
全文検索エンジンの検索にかけた検索語と、戻ってきた関連した言葉の文字面は異なるもので、かつ関連性の強い言葉です。
それゆえに、これは一種の「共起」とみなすことができます。

もっとも、「共起」の解釈もさまざま。
「しとしと」と言えば「雨が降(ってい)る」ことです。
聞いた日本人は「雪」をイメージしません。
「しとしと」は形容詞で名詞ではありませんし、「雨が降(ってい)る」という結果では状況を判断していることになります。
全文検索エンジンの検索結果も仮にそこまで来れば、人工知能の苦手な「文脈の前後判断」を補うものになります。

実際には全文検索エンジンは「文書を登録しておき検索語ですばやく探す」ということが主な目的で作られているため、「共起」という現象の表現に向いてはいません。弊社では、この点を改善するように仕組み作りをしました。

「共起」をビジネスにあてはめる ―販売履歴の活用例

さて、冒頭に書きました、この「共起」という現象をビジネスにあてはめる、という点についてまとめましょう。

営利販売実績の向上のための解析に使うデータといえば、販売履歴。通常、時系列に蓄積されています。その販売実績データ、仮に下記のように全文検索エンジンに投入したとします。

日付時刻 店コード レジ処理番号 購入商品
2016/11/26 11:30 00001 201611261130001 ビール おむつ 哺乳瓶 粉ミルク 食パン
2016/11/26 11:40 00001 201611261130002 ビール おむつ 粉ミルク 食パン  牛乳

このように購入商品の列にデータの整形加工をして全文検索エンジンへ投入しておくことにより、商品名が言葉であるため、いくつかの条件付きで「共起」の拡大解釈が適用できます。
単に「ビール」と検索した際、購入商品の共起の度数計算が可能になり、「ビール」とよく一緒に買われているものが何かを割り出すことができます。

商品マスタの商品コードに読み替えて投入しておくと、商品コードどうしの共起の度数計算ができることにもなります。現実的にはそちらが選択肢となります。
上記の有名なデータの例を見ますと、購入者のプロフィールを当てられる(「分類」ができる)一面がありますが、その件はいずれまた別の機会にお伝えしましょう。

投稿者: データサイエンス部 矢野 (株式会社アイズファクトリー)

この記事は株式会社アイズファクトリーが提供しています。

株式会社アイズファクトリー

株式会社アイズファクトリーは、理学博士が中心となり設立されました。
「全ての人に成功確率UPを届ける」をキャッチフレーズに、科学を活用してより良い社会に貢献すること、その後のシステム開発を通じて、お客様企業の業務効率向上に貢献すること、を目指しております。

 近年、ビッグデータ活用の必要性が高まっており、データマイニングがより注目されています、過去300超のプロジェクトで培った解析力と実ビジネスへの応用力は、グルメ情報提供サイト、ECサイト、広告関連企業、教育関連企業、自動車メーカー、公官庁、といった幅広い業界の大手企業・団体様から高い評価を得ております。

データサイエンスの概要を無料配信中!無料セミナーの動画と講義レジュメを配信!

通勤講座は今すぐ無料で受講できます。
まずはお試しください!

登録すると無料で試せます

  • 無料セミナー
    「データサイエンスの入口」
  • 講義レジュメ(PDF)
    無料セミナーのスライドがダウンロードできます!

※無料講座の内容は予告なく変更される場合があります。
あらかじめご了承ください。