Part of Speech for Urdu

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

PROPN
ADP
NUM
NOUN
CCONJ
ADJ
VERB
AUX
PUNCT
DET
PRON
ADV
PART
SCONJ
X
INTJ

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_udtb", "ur") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['جان برف لیبز سے ہیلو! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_udtb", "ur")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("جان برف لیبز سے ہیلو! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""جان برف لیبز سے ہیلو! ""]
token_df = nlu.load('ur.pos.ud_udtb').predict(text)
token_df

Results

token    pos

 جان  PROPN
 برف  PROPN
لیبز  PROPN
  سے    ADP
ہیلو   VERB
   !  PUNCT

Model Information

Model Name:	pos_ud_udtb
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	ur

PREVIOUSPart of Speech for Galician

NEXTPart of Speech for Marathi