Description
This is a dictionary-based lemmatizer that assigns all forms and inflections of a word to a single root. This enables the pipeline to treat the past and present tense of a verb, for example, as the same word instead of two completely different words.
Live Demo Open in Colab Download Copy S3 URI
How to use
document_assembler = DocumentAssembler() \
.setInputCol("text") \
.setOutputCol("document")
tokenizer = Tokenizer()\
.setInputCols(["document"]) \
.setOutputCol("token")
lemmatizer = LemmatizerModel.pretrained("lemma", "ta") \
.setInputCols(["token"]) \
.setOutputCol("lemma")
pipeline = Pipeline(stages=[document_assembler, tokenizer, lemmatizer])
example = spark.createDataFrame([['கட்சி வெற்றி பெற்றதோடு பெற்றத் ஓடு ஆட்சியில் உள்ள கட்சிக்கு ஒரு மாற்றுக் கட்சியாக வளர்ந்துள்ளது வளர்ந்த் உள்ளது .']], ["text"])
results = pipeline.fit(example).transform(example)
val document_assembler = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")
val tokenizer = Tokenizer()
.setInputCols("document")
.setOutputCol("token")
val lemmatizer = LemmatizerModel.pretrained("lemma", "ta")
.setInputCols("token")
.setOutputCol("lemma")
val pipeline = new Pipeline().setStages(Array(document_assembler, tokenizer, lemmatizer))
val data = Seq("கட்சி வெற்றி பெற்றதோடு பெற்றத் ஓடு ஆட்சியில் உள்ள கட்சிக்கு ஒரு மாற்றுக் கட்சியாக வளர்ந்துள்ளது வளர்ந்த் உள்ளது .").toDF("text")
val result = pipeline.fit(data).transform(data)
import nlu
text = ["கட்சி வெற்றி பெற்றதோடு பெற்றத் ஓடு ஆட்சியில் உள்ள கட்சிக்கு ஒரு மாற்றுக் கட்சியாக வளர்ந்துள்ளது வளர்ந்த் உள்ளது ."]
lemma_df = nlu.load('ta.lemma').predict(text, output_level = "document")
lemma_df.lemma.values[0]
Results
+-------------+
| lemma|
+-------------+
| கட்சி|
| வெற்றி|
| பெற்றதோடு|
| பெற்றத்|
| ஓடு|
| ஆட்சி|
| உள்|
| கட்சிக்கு|
| ஒரு|
| மாற்றுக்|
| கட்சியாக|
|வளர்ந்துள்ளது|
| வளர்ந்த்|
| உள்|
| .|
+-------------+
Model Information
Model Name: | lemma |
Compatibility: | Spark NLP 3.0.0+ |
License: | Open Source |
Edition: | Official |
Input Labels: | [token] |
Output Labels: | [lemma] |
Language: | ta |
Data Source
The model was trained on the Universal Dependencies version 2.7.
Benchmarking
Precision=0.62, Recall=0.58, F1-score=0.6
PREVIOUSMaltese Lemmatizer