テキストメディア特論 「会社名」の抽出

>100 Views

September 23, 23

スライド概要

profile-image

自然言語処理の、主にTwitterのトレンド解析を行なっていましたが、現在はBlueskyのトレンド解析等を行っています。 作った(真似た)Chrome拡張:定期的にチェック( http://x.gd/JSivC )

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

「会社名」の抽出 @lamrongol

2.

 「~社」などの表現から会社名を判断する方法には限界 がある     切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある あらかじめどのような会社名があるか登録しておけばよ い

3.

Wikipedia の利用  Wikipediaの特徴     各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある 人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)

4.

略称の取得    略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる

5.

Wikipedia以外からの取得  Web上にはWikipedia以外の文書も大量にある    しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな いか?  「〇〇は東証一部に上場した~」  「〇〇は1997年に創業した~」

6.

構造化されてない文章からの会社名の取得   まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る N(会社名∧創業) P(会社名|創業)=  N(創業) 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す

7.

関連研究の応用   Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の 種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる