实验日志2 Word2vec相关
目前的实验需要word2vec进行embedding,这里记录下过程。
安装gensim
这里的坑是gensim的版本更新很快,第一次安装可以最新版。但使用老版本存储后的model不能用新版导入,而新版的语法和老版有可能不兼容。
pip install --upgrade gensim
pip install gensim==4.0.0
导入并使用
from gensim.models import Word2Vec
model = Word2Vec(sentences=cropus, vector_size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")
获取cropus
word2vec格式:list of lists
对于GPS时间序列来说: [ [p0,p1,p2], [p1,p2], … [p10,p11,p12,p13] ]
训练及读取模型
model = Word2Vec(content,vector_size=250,window=5,min_count=0)
model.save('./word2vec.model')
model = Word2Vec.load('word2vec.model')
获取每个poi的embedding
model.wv(str[poi_number])
更改colab工作路径
os.chdir(path)