目前的实验需要word2vec进行embedding,这里记录下过程。

安装gensim

这里的坑是gensim的版本更新很快,第一次安装可以最新版。但使用老版本存储后的model不能用新版导入,而新版的语法和老版有可能不兼容。

pip install --upgrade gensim

pip install gensim==4.0.0

导入并使用

from gensim.models import Word2Vec
model = Word2Vec(sentences=cropus, vector_size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")

获取cropus

word2vec格式:list of lists

对于GPS时间序列来说: [ [p0,p1,p2], [p1,p2], … [p10,p11,p12,p13] ]

训练及读取模型

model = Word2Vec(content,vector_size=250,window=5,min_count=0)
model.save('./word2vec.model')
model = Word2Vec.load('word2vec.model') 

获取每个poi的embedding

model.wv(str[poi_number])

更改colab工作路径

os.chdir(path)