NER Pipeline for 10 High Resourced Languages


This pretrained pipeline is built on the top of xlm_roberta_large_token_classifier_hrl model.

Predicted Entities

Download Copy S3 URI

How to use

pipeline = PretrainedPipeline("xlm_roberta_large_token_classifier_hrl_pipeline", lang = "xx")

pipeline.annotate("يمكنكم مشاهدة أمير منطقة الرياض الأمير فيصل بن بندر بن عبد العزيز في كل مناسبة وافتتاح تتعلق بمشاريع التعليم والصحة وخدمة الطرق والمشاريع الثقافية في منطقة الرياض.")
val pipeline = new PretrainedPipeline("xlm_roberta_large_token_classifier_hrl_pipeline", lang = "xx")

pipeline.annotate("يمكنكم مشاهدة أمير منطقة الرياض الأمير فيصل بن بندر بن عبد العزيز في كل مناسبة وافتتاح تتعلق بمشاريع التعليم والصحة وخدمة الطرق والمشاريع الثقافية في منطقة الرياض.")



|chunk                      |ner_label|
|الرياض                     |LOC      |
|فيصل بن بندر بن عبد العزيز |PER      |
|الرياض                     |LOC      |


Model Information

Model Name: xlm_roberta_large_token_classifier_hrl_pipeline
Type: pipeline
Compatibility: Spark NLP 4.4.2+
License: Open Source
Edition: Official
Language: xx
Size: 1.8 GB

Included Models

  • DocumentAssembler
  • SentenceDetector
  • TokenizerModel
  • XlmRoBertaForTokenClassification
  • NerConverter
  • Finisher