Azureにも本好きを食わせてみた。 しかし、本の頻度分布多すぎ。
import codecs import configparser from azure.core.credentials import AzureKeyCredential from azure.ai.textanalytics import TextAnalyticsClient config = configparser.ConfigParser() config.read('azure.config') endpoint = config['AZURE']['azure_endpoint'] key = config['AZURE']['azure_ai_key'] client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key)) ifs = codecs.open('N4830BU-1.txt', 'r', 'utf-8') lines = ifs.readlines() documents = [''.join(lines)] response = client.recognize_entities(documents, language = "ja") result = [doc for doc in response if not doc.is_error] for doc in result: for entity in doc.entities: print(entity.text, entity.category) プロローグ Organization
本須 麗乃 Person
もとすうら Person
22歳 Quantity
本 Product
誰か PersonType
筆者 PersonType
本 Product
本屋 Location
図書館 Location
写真集 Product
外国 Location
本 Product
百科事典 Product
文学全集 Product
紙 Product
専門誌 Product
雑誌 Product
小説 Product
ライトノベル Product
絵本 Product
日本 Location
素人が PersonType
同人誌 Product
パラ Quantity
美酒 Product
図書館 Location
本 Product
書庫 Location
本 Product
本 Product
紙 Product
インク Product
そこに Location
本 Product
本 Product
書庫 Location
本 Product
本 Product
本 Product
畳 Product
ベッド Product
本 Product
わたし PersonType
大地震 Event
本 Product
ぇ Person
司書 PersonType
大学図書館 Location
神様 PersonType
転生 Event
次 Quantity
本 Product
図書館 Location
司書 PersonType
本 Product
司書 PersonType
本 Product
本 Product
本 Product
本 Product
紙 Product
インク Product
本 Product
神様 PersonType
わたし PersonType
本 Product
ifs.close()