Part of Speech for Marathi

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

DET
AUX
NOUN
PUNCT
PRON
ADJ
CCONJ
ADV
VERB
SCONJ
NUM
ADP
INTJ
PROPN

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
  .setInputCol("text") \
  .setOutputCol("document")

sentence_detector = SentenceDetector() \
  .setInputCols(["document"]) \
  .setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_ufal", "mr") \
  .setInputCols(["document", "token"]) \
  .setOutputCol("pos")

pipeline = Pipeline(stages=[
  document_assembler,
  sentence_detector,
  posTagger
])

example = spark.createDataFrame([['जॉन हिम लॅब्समधून हॅलो! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
        .setInputCol("text")
        .setOutputCol("document")

val sentence_detector = SentenceDetector()
        .setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_ufal", "mr")
        .setInputCols(Array("document", "token"))
        .setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("जॉन हिम लॅब्समधून हॅलो! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""जॉन हिम लॅब्समधून हॅलो! ""]
token_df = nlu.load('mr.pos').predict(text)
token_df
    

Results

       token    pos
                   
      जॉन  PROPN
      हिम   NOUN
लॅब्समधून    ADJ
     हॅलो   VERB
        !  PUNCT

Model Information

Model Name:	pos_ud_ufal
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	mr

PREVIOUSPart of Speech for Urdu

NEXTPart of Speech for Yoruba