Part of Speech for Slovenian

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

PUNCT
DET
NOUN
AUX
VERB
PRON
ADP
SCONJ
PROPN
ADJ
CCONJ
PART
ADV
NUM
X
INTJ

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
  .setInputCol("text") \
  .setOutputCol("document")

sentence_detector = SentenceDetector() \
  .setInputCols(["document"]) \
  .setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_ssj", "sl") \
  .setInputCols(["document", "token"]) \
  .setOutputCol("pos")

pipeline = Pipeline(stages=[
  document_assembler,
  sentence_detector,
  posTagger
])

example = spark.createDataFrame([['Pozdravljeni iz JOHN Snow Labs! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
        .setInputCol("text")
        .setOutputCol("document")

val sentence_detector = SentenceDetector()
        .setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_ssj", "sl")
        .setInputCols(Array("document", "token"))
        .setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Pozdravljeni iz JOHN Snow Labs! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Pozdravljeni iz JOHN Snow Labs! ""]
token_df = nlu.load('sl.pos').predict(text)
token_df
    

Results

          token    pos
                      
Pozdravljeni    ADJ
          iz    ADP
        JOHN  PROPN
        Snow  PROPN
        Labs  PROPN
           !  PUNCT

Model Information

Model Name:	pos_ud_ssj
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	sl

PREVIOUSPart of Speech for Farsi

NEXTPart of Speech for Galician