Part of Speech for Korean

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

CCONJ
ADV
SCONJ
DET
NOUN
VERB
ADJ
PUNCT
AUX
PRON
PROPN
NUM
INTJ
PART
X
ADP
SYM

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")

sentence_detector = SentenceDetector() \
.setInputCols(["document"]) \
.setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_kaist", "ko") \
.setInputCols(["document", "token"]) \
.setOutputCol("pos")

pipeline = Pipeline(stages=[
document_assembler,
sentence_detector,
posTagger
])

example = spark.createDataFrame([['John Snow Labs에서 안녕하세요! ']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")

val sentence_detector = SentenceDetector()
.setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_kaist", "ko")
.setInputCols(Array("document", "token"))
.setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("John Snow Labs에서 안녕하세요! ").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""John Snow Labs에서 안녕하세요! ""]
token_df = nlu.load('ko.pos.ud_kaist').predict(text)
token_df

Results

token    pos

    J   NOUN
    o   NOUN
    h   NOUN
    n  SCONJ
    S      X
    n      X
    o      X
    w      X
    L      X
    a      X
   b      X
   s      X
   에    ADP
   서  SCONJ
   안    ADV
   녕   VERB
 하세요   VERB
   !  PUNCT

Model Information

Model Name:	pos_ud_kaist
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	ko

PREVIOUSPart of Speech for Irish

NEXTPart of Speech for Breton