Part of Speech for Bihari

Description

A Part of Speech classifier predicts a grammatical label for every token in the input text. Implemented with an averaged perceptron architecture.

Predicted Entities

NOUN
CCONJ
ADJ
PUNCT
ADP
VERB
PROPN
NUM
AUX
DET
PRON
SCONJ
PART
ADV
INTJ
X

Live Demo Open in Colab Download Copy S3 URI

How to use

document_assembler = DocumentAssembler() \
  .setInputCol("text") \
  .setOutputCol("document")

sentence_detector = SentenceDetector() \
  .setInputCols(["document"]) \
  .setOutputCol("sentence")

pos = PerceptronModel.pretrained("pos_ud_bhtb", "bh") \
  .setInputCols(["document", "token"]) \
  .setOutputCol("pos")

pipeline = Pipeline(stages=[
  document_assembler,
  sentence_detector,
  posTagger
])

example = spark.createDataFrame([['Hello from John Snow Labs!']], ["text"])

result = pipeline.fit(example).transform(example)

val document_assembler = DocumentAssembler()
        .setInputCol("text")
        .setOutputCol("document")

val sentence_detector = SentenceDetector()
        .setInputCols("document")
.setOutputCol("sentence")

val pos = PerceptronModel.pretrained("pos_ud_bhtb", "bh")
        .setInputCols(Array("document", "token"))
        .setOutputCol("pos")

val pipeline = new Pipeline().setStages(Array(document_assembler, sentence_detector, pos))

val data = Seq("Hello from John Snow Labs!").toDF("text")
val result = pipeline.fit(data).transform(data)

import nlu
text = [""Hello from John Snow Labs!""]
token_df = nlu.load('bh.pos').predict(text)
token_df
    

Results

   token    pos
               
Hello   NOUN
 from   NOUN
 John   NOUN
 Snow   NOUN
 Labs   NOUN
    !  PUNCT

Model Information

Model Name:	pos_ud_bhtb
Compatibility:	Spark NLP 3.0.0+
License:	Open Source
Edition:	Official
Input Labels:	[document, token]
Output Labels:	[pos]
Language:	bh

PREVIOUSPart of Speech for Basque

NEXTPart of Speech for Danish