Part of Speech for Swedish

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

ADJ
NOUN
ADP
VERB
PUNCT
PRON
ADV
SCONJ
NUM
AUX
PART
DET
CCONJ
PROPN
SYM
INTJ

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_tal", "sv") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['Hej från John Snow Labs! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_tal", "sv")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Hej från John Snow Labs! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Hej från John Snow Labs! ""]
token_df = nlu.load('sv.pos.ud_tal').predict(text)
token_df

Results

token    pos

 Hej   NOUN
från    ADP
John  PROPN
Snow  PROPN
Labs  PROPN
   !  PUNCT

Model Information

Model Name:	pos_ud_tal
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	sv

PREVIOUSPart of Speech for Hungarian

NEXTPart of Speech for Finnish