GiNZAに本好きを食わせる

· Read in about 1 min · (225 words) ·

GiNZAに本好きの下克上のプロローグを食わせてエンティティ認識を試してみた。 本須 麗乃が本と須でぶった切れた。 なんか、国家安康 君臣豊楽っぽくてなんだかなぁ。

from ginza import *
import codecs
import spacy
nlp = spacy.load("ja_ginza")  # GiNZAモデルの読み込み

ents = []
with codecs.open('N4830BU-1.txt', 'r', 'utf-8') as text:
    for line in text:
        doc = None
        try:
            doc = nlp(line.strip())
        except:
            pass
        if doc:
            for ent in doc.ents:
                ents.append(ent)
    
for ent in ents:
    print(ent.text, ent.label_)
須 麗乃 Person
22歳 Age
三度 Frequency
顔 Animal_Part
ニヨニヨ Doctrine_Method_Other
一冊 N_Product
目 Animal_Part
教育学 Academic
民俗学 Academic
数学 Academic
物理 Academic
化学 Academic
生物学 Academic
芸術 Academic
体育 Academic
人類 Mammal
一冊 N_Product
日本 Country
日光 Domestic_Region
肌 Animal_Part
司書資格 Position_Vocation
大学図書館 Facility_Other
司書 Position_Vocation
一日 Period_Day
司書 Position_Vocation
人間 Mammal