Skip to content

lng205/fairarchive

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

HITSZ集市档案

集市的APP能检索到较早的内容了,这个项目不再继续维护

本项目旨在对你校集市的帖子进行长期存储,用于浏览和检索。

集市的旧帖子(发布一周以上)没法直接通过平台浏览和检索,虽然可以通过微信群实现检索,但这个方法依赖微信的消息记录,并且检索方式只限标题关键词。

数据库会存储帖子发布4天时的状态。

[TODO]

  • 将数据库迁移至SQLAlchemy ORM框架。
  • 处理图片缩放问题(如何让max-width自适应为窗口宽度?)。
  • 调整导航栏结构,添加不同分区标签页及分区内的帖子浏览及检索功能。
  • 添加按不同条件(时间、浏览、点赞、相关性)排序的功能。
  • 添加指定搜索时间范围的功能。
  • 添加全文搜索支持。
  • 对结果中的搜索关键词进行高亮。
  • 添加关于信息页面。
  • 添加跳转至原帖的链接。
  • 解决通过ID访问早期帖子的问题(验证码验证流程抓包),并将微信记录中的帖子补充至数据库。

实现细节

爬虫

  • 参考一篇CSDN。使用Charles抓包。

  • Cookie似乎长期有效。

  • 服务器能返回的最早帖子ID是96小时前的。能直接通过ID访问的最早帖子时间在640小时前到1200小时前的范围内(测试数据不足)。

数据库

  • 数据库使用sqlite3。

  • 目前的更新频率是一小时一次。

Web

  • 使用的工具栈是Flask,插件包括Bootstrap5,SQLAlchemy。

碎碎念

  • 欢迎PR或issue。

  • 野路子自学的绿皮代码,不保证质量。

  • 关于域名:境内站要备案,个人名义不可备案公开网站(所以也没有SSL/TLS)。境外站则慢上不少,这是一个临时的境外镜像