GiNZAに本好きの下克上のプロローグを食わせてエンティティ認識を試してみた。 本須 麗乃が本と須でぶった切れた。 なんか、国家安康 君臣豊楽っぽくてなんだかなぁ。
from ginza import *
import codecs
import spacy
nlp = spacy.load("ja_ginza") # GiNZAモデルの読み込み
ents = []
with codecs.open('N4830BU-1.txt', 'r', 'utf-8') as text:
for line in text:
doc = None
try:
doc = nlp(line.strip())
except:
pass
if doc:
for ent in doc.ents:
ents.append(ent)
for ent in ents:
print(ent.text, ent.label_)
須 麗乃 Person
22歳 Age
三度 Frequency
顔 Animal_Part
ニヨニヨ Doctrine_Method_Other
一冊 N_Product
目 Animal_Part
教育学 Academic
民俗学 Academic
数学 Academic
物理 Academic
化学 Academic
生物学 Academic
芸術 Academic
体育 Academic
人類 Mammal
一冊 N_Product
日本 Country
日光 Domestic_Region
肌 Animal_Part
司書資格 Position_Vocation
大学図書館 Facility_Other
司書 Position_Vocation
一日 Period_Day
司書 Position_Vocation
人間 Mammal