Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

由于刚学习,有点看不懂部署方法,大佬可以详细指导一下吗? #18

Open
amuwap opened this issue Dec 8, 2024 · 2 comments

Comments

@amuwap
Copy link

amuwap commented Dec 8, 2024

由于刚学习,还有很多都不懂,可以详细指导一下如何搭建分布式搜索引擎和搭建最小系统的搜索引擎项目部署方法吗?
还有所需环境和编译方法

@DragonKingpin
Copy link
Owner

DragonKingpin commented Dec 9, 2024

你好,感谢关注我的项目~

关于项目:

  1. 目前暂时为Beta开发版本,由于本人工作时间问题,项目难度问题,目前团队人力较为紧张,一部分功能还在完善中。
  2. 目前后台暂时完全开发,预计202412月到202503月期间,会陆续有后台和前端推出。(可关注,最晚3月左右有较为功能完善的后台)
  3. 目前项目是自底向上开发,大部分都是算法、架构等底层开发,应用性开发正在募集人手开发中,底层任务调度、服务树、注册表、分布式存储等操作系统底层已基本实现。
  4. 爬虫和搜索引擎是本项目的子系统,位于Shadow子项目文件夹,里面有几个例子。(不提供引争议的爬虫代码)
  5. 如前文所述,爬虫仅是系统的子系统,暂时没有专门支持Robots协议。
  6. 标准的业内搜索引擎涉及到多个子领域知识是系统工程,如数据仓库、分布式系统设计、数据存储、索引工程、特征工程、NLP等子方向,本项目涉及架构面较多,并非一言两语可以阐明。(后续会持续更新文档)
  7. 如果欲快速跑启项目,可以跑最小系统,位于配置中的 “Void”。
  8. 关于GO的问题,目前本项目已是C/C++移植过来,Java部分代码量接近15万行,本人和团队同学部分已经工作,因此GO版本半年内不会推进,望理解。
  9. 关于部署,本项目最小系统仅基于JDK 11,使用IDEA即可打开。(如需部署完整系统,需要安装MYSQL、Redis、MQ等中间件,如需搭建数仓架构需安装Hadoop、Spark、Kafka等组件)

关于学习:

  1. 该项目是本人本科和研究生期间无聊手搓的,也是本人学习性项目,同时要想真正搭建一个分布式搜索引擎绝非易事,该项目耗费了本人实习期间较多工资搭建真实的TB-PB级集群,真实的搜索引擎如前文所述是复杂的系统工程。如果仅想体验和了解基础的搜索引擎底层原理,可以参阅本人博客和文档,跑跑最小系统玩玩。但是真实的搜索引擎是大数据的外壳,处理MB、GB的小数据和TB、PB级别的数据量完全不是一种概念。如果只是跑跑爬虫脚本玩玩,这不是搜索引擎,没有啥技术挑战。
  2. 我不知道你的水平和基础,也不知道你的部署动机。如果交作业、论文或特殊目的,该项目难度不适用于该类目的。如果是纯兴趣爱好支撑的学习,实践中,搜索引擎技术涉及的知识面较广,你需要系统性学习许多底层知识,鉴于你提到的“刚学”,目前当务之急建议学习Java、数据结构、算法、索引结构、计算机网络和操作系统等基础。
  3. 搜索引擎难的不是爬虫,而是大规模调度、云计算架构体系、大数据处理、数据库技术等多个领域知识协同。实践中,需要理解搜索引擎架构,并去真实体验大规模爬虫和数据处理的酸爽。本人不是买课的,因此,学习没有捷径,真正想学习本项目需要循序渐进。

关于更新时间:
如果是真的希望学习和了解分布式技术、云计算、大数据等相关技术,可关注本项目。由于临近年关,公司事情较多,本月更新不会很快,1月期间团队同学放寒假,我们过年放假会时间相对充裕,会有较大的更新。后面有更完整的部署、后台和资料。

其他详情可关注文档: https://docs.nutsky.com/docs/hazelnut_sauron_zh_cn
集群搭建的细节:https://zhuanlan.zhihu.com/p/634851956
或留言。

@amuwap
Copy link
Author

amuwap commented Dec 10, 2024

谢谢大佬

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants