组会日志2023上半年

一月 5, 2023

2022.12.27 半衰期回归github源码大概是说人类的记忆力是可以用半衰期回归预测的。用了多邻国的数据进行预测。我在想人们对于一个地方的兴趣是否也具有半衰期？我对于某个地方的兴趣会逐渐减弱，去到的概率越来越小，但我有一定概率之后重燃对这个东西的兴趣。 2023.1.10 3月底Jorudan汇报，4月底中期答辩 Jorudan data: 做预测，对于用户预测出行方式/对于具体地点预测比如地铁、火车人流量 Gowalla data：是否真的可以做预测用户相似度？因为只有用户之间的连接，没有交互频率：使用更多图的节点相似度计算方法，提取相似节点，而不是直接使用现有的连接进行预测：比如对于每个节点的TOP5最近用户计算他们的相似度？中期答辩: 强调经典方法的好处：快速，容易解释 2023.1.17 lr_scheduler:可以自动调大调小学习率 multimask: 多方面权重的加和，比如结果= 普通余弦相似度+交互相似度+视频内的tag相似度

阅读全文

实验日志2 Word2vec相关

一月 5, 2023

目前的实验需要word2vec进行embedding，这里记录下过程。安装gensim 这里的坑是gensim的版本更新很快，第一次安装可以最新版。但使用老版本存储后的model不能用新版导入，而新版的语法和老版有可能不兼容。 pip install --upgrade gensim pip install gensim==4.0.0 导入并使用 from gensim.models import Word2Vec model = Word2Vec(sentences=cropus, vector_size=100, window=5, min_count=1, workers=4) model.save("word2vec.model") 获取cropus word2vec格式：list of lists 对于GPS时间序列来说： [ [p0,p1,p2], [p1,p2], … [p10,p11,p12,p13] ] 训练及读取模型 model = Word2Vec(content,vector_size=250,window=5,min_count=0) model.save('./word2vec.model') model = Word2Vec.load('word2vec.model') 获取每个poi的embedding model.wv(str[poi_number]) 更改colab工作路径 os.chdir(path)

阅读全文

实验日志1 Pandas和numpy

一月 5, 2023

在做实验的过程中搜了不知道多少次numpy和pandas的一些操作，总是忘记。现在记录下来。 pandas: csv->df,df->csv pd.read_csv('./name.csv') df.to_csv('./name.csv',header = None, index = None) numpy: array->csv numpy.savetxt('./name.csv',a = numpy.asarray([[1,2,3],[4,5,6]]),delimiter = ',') pandas: string to datetime from datetime import datetime datetime_str = '09/19/22 13:55:26' datetime_object = datetime.strptime(datetime_str, '%m/%d/%y %H:%M:%S') pandas:隔行相减 df['xx_1'] = df['xx'].shift(1) df['xx']-df['xx_1'] pandas: groupby 相关 sort_values(['col_name'],ascending = False) reset_index(drop = True) set_index() pandas:选择某一列非NAN的行 selected_rows = df[~df['col_name'].isnull()] pandas:表join 默认的join是根据index，如果不想根据index就要设定key #不保留index df.set_index('key').join(other.set_index('key')) #保留index df.join(other.set_index('key'), on='key') pandas:绘制概率直方图 df.hist() pandas: 更改column name df.set_axis(['col_name1','col_name2','col_name3'], axis = 1)

阅读全文

工作日志6 Nodejs和puppeteer学习

一月 5, 2023

这个项目本身使用Aurora Vision提供的api进行爬虫，但Aurora Vision更新了他们的api版本，并且需要申请额外服务，因此该项目只能从网页基于puppeteer进行爬虫。 puppeteer是一个很容易上手的爬虫库，基本看quick start就能理解其是如何模拟人的一些操作来爬虫的。该项目的难点在于我不会java，也不会js，熟悉这些花费了很久的时间。 node.js和puppeteer安装先装npm，后装puppeteer，挺简单的 node.js的调试 console.log('this is test') 控制台输出 console.time('puppeteer') console.timeLog('puppeteer') console.timeEnd('puppeteer') 计算时间 node inspect xxx.js: 内置的检查器 cont, c: 继续执行 next, n: 下一步 step, s: 进入 out, o: 走出去 pause：暂停运行代码（如开发者工具中的暂停按钮）参考node.js 官方文档在vs中设置js的debug环境vs nodejs youtube视频教程Getting started with Node.js debugging in VS Code 在vs中debug:在控制台输入noed xxx.js之后即可打开debug页面。 vs inline value: Open Settings Search for “debug” Navigate to Features > Debug Change the setting for Debug: Inline Values 另外还可以使用devtool等方法。我觉得还是vs最方便。 node.js的一些迷惑语法 module exports: 模块化。很多时候一个文件会被包装成一整个模块，直接对其debug是不会有反映的。要在别的test文件中导入，再逐行debug。例如 #.

阅读全文

工作日志5 Ruby_on_rails学习

一月 5, 2023

这个工作内容是更改检测系统的web端，增加一个更改某个特定表的功能。主要使用ruby on rails。 ruby on rails quick start 官方入门教程rais入门总的来说，rails是一个web框架，最重要的三个模块是controller routes view controller控制着view的生成。 view中使用的方法，以及view的名称，都应该在contoller中定义。 view也就是page，包含每个页面的html文件。view下每个page的路径即为其的URL导航。这些导航也可以在routes中更改。 lib中可以放置一些扩展脚本，一般都是.sh文件或者.rb文件。 .rb文件的执行命令为：rails runner .rb 总之搞不明白了就再把官方文档看一遍。 model rails中类似java和python的class即为model。model之间可以有属于、包含、一对多多对多的关系。 web端与db的通信除去rails中使用model进行通信之外，还可以使用直接send SQL query的方法。例如： sql = ActiveRecord::Base.send( :sanitize_sql_array, [amount_target_list_sql, today:today] ) logger(“amount send is ok”) # logger(sql) results = ActiveRecord::Base.connection.select_all(sql) logger('amount select is ok') rails在启动的时候会建立web和db的连接。手动建立新的连接可以使用 ActiveRecord::Base.establish_connection(config) 限定条件取得数据参考这个连接（rbr写博客真的很详细）qiita rails 语法 where model.where(colname:‘value’) model.where.not(colname:‘value’) model.where(colname1:‘value1’).or(colname2:‘value2’) first and last model.first(n) model.last(n) select model.select(:colname) model.select(‘colname’) order model.order(’name ASC’) model.order(name::desc) limit model.

阅读全文

实验日志3 Linux 指令学习

十一月 2, 2022

Linux 指令学习最近实习终于派给我了可以学到东西的活，在sxp的鼓励下开始学习指令。再次谢谢她！密钥登陆 ssh -i [privatekey] username@ip_address 使用ssh密钥登陆密钥上传下载 scp -i [privatekey] -r username@ip_address:remote_dictionary ./local_dictionary/ 使用ssh复制文件夹到本地 scp -i [privatekey] username@ip_address:remote_dictionary/file ./local_dictionary/ 使用ssh复制文件到本地交换后面两个参数则是上传 crontab 我理解的crontab是一种类似heroku scheduler的定时运行某条指令的文件。该文件包含cron(8)守护进程的指令。可以自定义时间，指令，用户。例如： 2,7,12,17,22,27,32,37,42,47,52,57 5-19 * * * /home/solarkun/jishakanshi_sh/controlCompcs.sh MONITOR 1 表示每天5~19点的2分，7分，…，57分，运行一遍后面的指令。 crontab的设置cron 配置指南 crontab指令： crontab -l crontab -e grep source sh文件 linux脚本类型。sh是linux中运行shell的命令，是shell的解释器。shell脚本是linux中shell与命令行界面，用户可以在shell脚本输入命令来执行各种各样的任务。执行sh文件： ./xxx.sh 或：sh xxx.sh sh文件有时会遇到权限问题。chmod命令可以更改权限。 chmod 744 filename 在这里，每个数字代表允许的权限的总和： 4赋予读取权限 2赋予写权限 1赋予执行权限 0没有权限参考链接： chmod参数 $ 是什么读项目sh源码总会碰到$美元符号搭配各种各样数字字母，初学者实在很难理解。总结如下。 $+var_name: 引用变量值 $?: Expands to the exit status of the most recently executed foreground pipeline.

阅读全文

第一篇博客

十月 6, 2022

大学时期没有完成的博客计划终于在博士时期开始了谁能想到目的是为了记录实验数据我就是懒癌以下是写博客要参考的内容使用hugo搭建博客：渣渣的夏天-搭建个人博客按照这个教程问题1：报错无模板 Error: module "hugo-tranquilpeak-theme" not found; either add it as a Hugo Module or store it in "D:\\PycharmProjects\\HugoWebsite\\blog\\themes".: module does not exist 需要把config.toml文件中的hugo-tranquilpeak-theme改为tranquilpeak 问题2：ssh报错 The authenticity of host 'github.com (20.27.177.113)' can't be established. 需要按照这里设定github私钥:hugo-build-blog 问题3：github大小写识别问题 git改为可识别大小写 git config --get core.ignorecase git config core.ignorecase false github用户名在setting-account里直接改为小写问题4：branch导致push不显示据说这是由于github默认分支从master 改为main的缘故。那我已经push到master了，需要重命名。参考: rename master to main Markdown教程：菜鸟教程Markdown Hugo快速入门：quick start 搭建好之后新增加一篇博客在blog文件夹下：hugo new posts/xxx.md 编辑xxx.md内容在blog文件夹下:hugo server -D, 进入local host：1313预览

阅读全文

组会日志2023上半年

实验日志2 Word2vec相关

实验日志1 Pandas和numpy

工作日志6 Nodejs和puppeteer学习

工作日志5 Ruby_on_rails学习

实验日志3 Linux 指令学习

第一篇博客

Han Qiuhan