Description
SentenceDetectorDL (SDDL) is based on a general-purpose neural network model for sentence boundary detection. The task of sentence boundary detection is to identify sentences within a text. Many natural language processing tasks take a sentence as an input unit, such as part-of-speech tagging, dependency parsing, named entity recognition or machine translation.
Open in Colab Download Copy S3 URI
How to use
documenter = DocumentAssembler()\
.setInputCol("text")\
.setOutputCol("document")
sentencerDL = SentenceDetectorDLModel\
.pretrained("sentence_detector_dl", "gu") \
.setInputCols(["document"]) \
.setOutputCol("sentences")
sd_model = LightPipeline(PipelineModel(stages=[documenter, sentencerDL]))
sd_model.fullAnnotate("""ઇંગલિશ વાંચન ફકરા એક મહાન સ્ત્રોત માટે શોધી રહ્યાં છો? તમે યોગ્ય જગ્યાએ આવ્યા છો. તાજેતરના એક અભ્યાસ મુજબ આજના યુવાનોમાં વાંચવાની ટેવ ઝડપથી ઘટી રહી છે. તેઓ આપેલ અંગ્રેજી વાંચન ફકરા પર થોડી સેકંડથી વધુ સમય સુધી ધ્યાન કેન્દ્રિત કરી શકતા નથી! ઉપરાંત, વાંચન તમામ સ્પર્ધાત્મક પરીક્ષાઓનો અભિન્ન ભાગ હતો અને છે. તો, તમે તમારી વાંચન કુશળતા કેવી રીતે સુધારી શકો છો? આ પ્રશ્નનો જવાબ વાસ્તવમાં બીજો પ્રશ્ન છે: વાંચન કુશળતાનો ઉપયોગ શું છે? વાંચનનો મુખ્ય હેતુ 'અર્થપૂર્ણ બનાવવાનો' છે.""")
val documenter = DocumentAssembler()
.setInputCol("text")
.setOutputCol("document")
val model = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "gu")
.setInputCols(Array("document"))
.setOutputCol("sentence")
val pipeline = new Pipeline().setStages(Array(documenter, model))
val data = Seq("ઇંગલિશ વાંચન ફકરા એક મહાન સ્ત્રોત માટે શોધી રહ્યાં છો? તમે યોગ્ય જગ્યાએ આવ્યા છો. તાજેતરના એક અભ્યાસ મુજબ આજના યુવાનોમાં વાંચવાની ટેવ ઝડપથી ઘટી રહી છે. તેઓ આપેલ અંગ્રેજી વાંચન ફકરા પર થોડી સેકંડથી વધુ સમય સુધી ધ્યાન કેન્દ્રિત કરી શકતા નથી! ઉપરાંત, વાંચન તમામ સ્પર્ધાત્મક પરીક્ષાઓનો અભિન્ન ભાગ હતો અને છે. તો, તમે તમારી વાંચન કુશળતા કેવી રીતે સુધારી શકો છો? આ પ્રશ્નનો જવાબ વાસ્તવમાં બીજો પ્રશ્ન છે: વાંચન કુશળતાનો ઉપયોગ શું છે? વાંચનનો મુખ્ય હેતુ 'અર્થપૂર્ણ બનાવવાનો' છે.").toDF("text")
val result = pipeline.fit(data).transform(data)
import nlu
nlu.load('gu.sentence_detector').predict("अंग्रेजी पढ्ने अनुच्छेद को एक महान स्रोत को लागी हेर्दै हुनुहुन्छ? तपाइँ सही ठाउँमा आउनुभएको छ. हालै गरिएको एक अध्ययन अनुसार आजको युवाहरुमा पढ्ने बानी छिटोछिटो घट्दै गएको छ. उनीहरु केहि सेकेन्ड भन्दा बढी को लागी एक दिईएको अंग्रेजी पढ्ने अनुच्छेद मा ध्यान केन्द्रित गर्न सक्दैनन्! साथै, पठन थियो र सबै प्रतियोगी परीक्षा को एक अभिन्न हिस्सा हो। त्यसोभए, तपाइँ तपाइँको पठन कौशल कसरी सुधार गर्नुहुन्छ? यो प्रश्न को जवाफ वास्तव मा अर्को प्रश्न हो: पढ्ने कौशल को उपयोग के हो? पढ्न को मुख्य उद्देश्य 'भावना बनाउन' हो.", output_level ='sentence')
Results
+-----------------------------------------------------------------------------------------+
|result |
+-----------------------------------------------------------------------------------------+
|[ઇંગલિશ વાંચન ફકરા એક મહાન સ્ત્રોત માટે શોધી રહ્યાં છો?] |
|[તમે યોગ્ય જગ્યાએ આવ્યા છો.] |
|[તાજેતરના એક અભ્યાસ મુજબ આજના યુવાનોમાં વાંચવાની ટેવ ઝડપથી ઘટી રહી છે.] |
|[તેઓ આપેલ અંગ્રેજી વાંચન ફકરા પર થોડી સેકંડથી વધુ સમય સુધી ધ્યાન કેન્દ્રિત કરી શકતા નથી!] |
|[ઉપરાંત, વાંચન તમામ સ્પર્ધાત્મક પરીક્ષાઓનો અભિન્ન ભાગ હતો અને છે.] |
|[તો, તમે તમારી વાંચન કુશળતા કેવી રીતે સુધારી શકો છો?] |
|[આ પ્રશ્નનો જવાબ વાસ્તવમાં બીજો પ્રશ્ન છે:] |
|[વાંચન કુશળતાનો ઉપયોગ શું છે?] |
|[વાંચનનો મુખ્ય હેતુ 'અર્થપૂર્ણ બનાવવાનો' છે.] |
+-----------------------------------------------------------------------------------------+
Model Information
Model Name: | sentence_detector_dl |
Compatibility: | Spark NLP 3.2.0+ |
License: | Open Source |
Edition: | Official |
Input Labels: | [document] |
Output Labels: | [sentences] |
Language: | gu |
Benchmarking
label Accuracy Recall Prec F1
0 0.98 1.00 0.96 0.98