com.johnsnowlabs.nlp.annotators.tokenizer.bpe

BertTokenizer

class BertTokenizer extends BasicTokenizer

Linear Supertypes

BasicTokenizer, AnyRef, Any

Ordering

Alphabetic
By Inheritance

Inherited

BertTokenizer
BasicTokenizer
AnyRef
Any

Hide All
Show All

Visibility

Public
All

Instance Constructors

new BertTokenizer(vocab: Map[String, Int], specialTokens: SpecialTokens)

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def asInstanceOf[T0]: T0

Definition Classes
Any
val bytesToUnicodeMapping: Map[Int, String]
Mapping for bytes to a different set of unicode characters (especially white spaces).
Mapping for bytes to a different set of unicode characters (especially white spaces). This improved model performance for gpt-2

Attributes
protected
def clone(): AnyRef

Attributes
protected[lang]
Definition Classes
AnyRef
Annotations
@throws( ... ) @native()
def decodeTokens(tokens: Array[Int]): String
def encode(sentences: Seq[(WordpieceTokenizedSentence, Int)], maxSequenceLength: Int): Seq[Array[Int]]
Encode the input sequence to indexes IDs adding padding where necessary
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def finalize(): Unit

Attributes
protected[lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
Annotations
@native()
def hashCode(): Int

Definition Classes
AnyRef → Any
Annotations
@native()
def isChinese(char: Char): Boolean

Definition Classes
BasicTokenizer
def isControl(char: Char): Boolean

Definition Classes
BasicTokenizer
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def isPunctuation(char: Char): Boolean

Definition Classes
BasicTokenizer
def isToFilter(char: Char): Boolean

Definition Classes
BasicTokenizer
def isWhitespace(char: Char): Boolean

Definition Classes
BasicTokenizer
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def normalize(text: String): String

Definition Classes
BasicTokenizer
final def notify(): Unit

Definition Classes
AnyRef
Annotations
@native()
final def notifyAll(): Unit

Definition Classes
AnyRef
Annotations
@native()
val specialTokens: SpecialTokens
def stripAccents(text: String): String

Definition Classes
BasicTokenizer
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
def tokenize(sentence: Sentence): Array[IndexedToken]
sentence
input Sentence which can be a full sentence or just a token in type of Sentence

Definition Classes
BasicTokenizer
val vocab: Map[String, Int]
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... ) @native()

Packages

BertTokenizer

class BertTokenizer extends BasicTokenizer

Instance Constructors

Value Members

Inherited from BasicTokenizer

Inherited from AnyRef

Inherited from Any

Ungrouped

Packages

BertTokenizer 

class BertTokenizer extends BasicTokenizer

Instance Constructors

Value Members

Inherited from BasicTokenizer

Inherited from AnyRef

Inherited from Any

Ungrouped

BertTokenizer