Part of Speech for Danish

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

ADP
NOUN
AUX
PROPN
VERB
SCONJ
ADV
DET
ADJ
PUNCT
CCONJ
PRON
NUM
PART
X
INTJ
SYM

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_ddt", "da") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['Hej fra John Snow Labs! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_ddt", "da")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Hej fra John Snow Labs! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Hej fra John Snow Labs! ""]
token_df = nlu.load('da.pos').predict(text)
token_df

Results

token    pos

 Hej   NOUN
 fra    ADP
John  PROPN
Snow  PROPN
Labs  PROPN
   !  PUNCT

Model Information

Model Name:	pos_ud_ddt
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	da

PREVIOUSPart of Speech for Bihari

NEXTPart of Speech for Indonesian