Part of Speech for Dutch

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

PRON
AUX
ADV
VERB
PUNCT
ADP
NUM
NOUN
SCONJ
DET
ADJ
PROPN
CCONJ
SYM
X
INTJ

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
  .setInputCol("text") \
  .setOutputCol("document")

sentence_detector = SentenceDetector() \
  .setInputCols(["document"]) \
  .setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_alpino", "nl") \
  .setInputCols(["document", "token"]) \
  .setOutputCol("pos")

pipeline = Pipeline(stages=[
  document_assembler,
  sentence_detector,
  posTagger
])

example = spark.createDataFrame([['Hallo van John Snow Labs! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
        .setInputCol("text")
        .setOutputCol("document")

val sentence_detector = SentenceDetector()
        .setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_alpino", "nl")
        .setInputCols(Array("document", "token"))
        .setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Hallo van John Snow Labs! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Hallo van John Snow Labs! ""]
token_df = nlu.load('nl.pos.ud_alpino').predict(text)
token_df
    

Results

   token    pos
               
Hallo  PROPN
  van    ADP
 John  PROPN
 Snow  PROPN
 Labs  PROPN
    !  PUNCT

Model Information

Model Name:	pos_ud_alpino
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	nl

PREVIOUSPart of Speech for English (pos_anc)

NEXTPart of Speech for Portuguese