Loading...
墨滴

希仔

2021/04/10  阅读:16  主题:默认主题

词条化

词条化

Idea: 给每个单词赋予一个独一无二的数值, 以便于神经网络的学习。(单词编码

from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'i love my dog',
    'I, love my cat',
    'You love my dog!'
]

# 1.1 创建一个分词器实例, 并设置num_words = 100,
# 表示要建立一个有100单词的词典
# 当文本次数大于100时,分词器将选取出现频率最高的100嘅单词放入词典进行编码,
# 因为那些频率较低的单词往往对神经网络的训练影响较小
tokenizer = Tokenizer(num_words = 100)

# 1.2 进行上述操作
tokenizer.fit_on_texts(sentences)

# 2. 得到该dict, 其中key为单词,value为对应的编码
word_index = tokenizer.word_index
print(word_index)
{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}

希仔

2021/04/10  阅读:16  主题:默认主题

作者介绍

希仔