國立中興大學教學大綱
課程名稱 (中) 資訊檢索(7934)
(Eng.) Advanced Topics in Information Retrieval
開課單位 資工系
課程類別 選修 學分 3 授課教師 范耀中
選課單位 資工系 / 碩專班 授課使用語言 中文 開課學期 1142
課程簡述 隨著網頁、社群媒體、數位文件與企業資料的數量快速成長,人類每天面對的資訊量呈現爆炸性增加。如何有效地組織、搜尋與利用這些大量文字資料,已成為現代資訊社會中的核心問題。資訊檢索(Information Retrieval, IR)技術正是解決此問題的基礎,並廣泛應用於網路搜尋引擎、數位圖書館、推薦系統與智慧助理等各類資訊系統中。

近年來,大型語言模型(Large Language Models, LLMs)的出現,大幅改變了人們取得資訊的方式。像是 ChatGPT、Claude、Gemini 等系統,表面上看似能直接回答問題,但其背後往往依賴各種檢索機制來取得最新、可信且具領域知識的資訊。像是 Retrieval-Augmented Generation(RAG)、工具檢索(tool retrieval)、知識導向對話等技術,都是建立在資訊檢索的核心原理之上。因此,在 LLM 時代,資訊檢索不再只是搜尋引擎的技術,而是建構可靠 AI 系統的關鍵基礎。

本課程將介紹資訊檢索的基礎理論、核心演算法與系統架構,並進一步連結至現代深度學習與 LLM 應用。課程內容涵蓋傳統 IR 方法與近年的神經式檢索與生成模型,使學生能理解從搜尋引擎到生成式 AI 系統的技術演進脈絡。

本課程主要內容包括:
資訊檢索基礎
文字前處理與文件表示
倒排索引(inverted index)
布林模型與向量空間模型
機率式檢索模型(如 BM25)
查詢處理與排序機制
機器學習與神經式檢索
文件分類與分群
Dense retrieval 與 neural ranking
深度學習與語言模型
詞向量:word2vec、GloVe、fastText
注意力機制與 Transformer
預訓練語言模型(如 BERT)

LLM 時代的資訊檢索
Retrieval-Augmented Generation(RAG)
混合式檢索架構(sparse + dense)

As the amount of web pages, social media content, digital documents, and enterprise data continues to grow rapidly, the volume of information that people encounter on a daily basis has increased explosively. How to effectively organize, search, and utilize this massive amount of textual data has become a core challenge in modern information society. Information Retrieval (IR) technology forms the foundation for addressing this problem and is widely used in various information systems, including web search engines, digital libraries, recommendation systems, and intelligent assistants.

In recent years, the emergence of Large Language Models (LLMs) has significantly changed the way people access information. Systems such as ChatGPT, Claude, and Gemini may appear to provide answers directly, but in practice they often rely on retrieval mechanisms to obtain up-to-date, trustworthy, and domain-specific knowledge. Techniques such as Retrieval-Augmented Generation (RAG), tool retrieval, and knowledge-grounded dialogue are all built upon the core principles of Information Retrieval. Therefore, in the LLM era, Information Retrieval is no longer just a technology for search engines; it has become a critical foundation for building reliable AI systems.

This course introduces the fundamental theories, core algorithms, and system architectures of Information Retrieval, and further connects them to modern deep learning and LLM-based applications. The course covers both classical IR methods and recent neural retrieval and generation models, enabling students to understand the technological evolution from traditional search engines to modern generative AI systems.
先修課程名稱
課程與核心能力關聯配比(%) 課程目標之教學方法與評量方法
課程目標 核心能力 配比(%) 教學方法 評量方法
To learn the related knowledge of information retrieval.
To learn the related knowledge of natural language processing
1.具備資訊科學素養、資訊理論與數學分析之能力
6.具備自我學習、溝通協調與團隊合作之能力
8.尊重學術倫理並具備學術論文的簡報與撰寫能力
40
40
20
專題探討/製作
討論
講授
口頭報告
作業
測驗
授課內容(單元名稱與內容、習作/每週授課、考試進度-共16週加自主學習)
週次 授課內容
第1週 介紹課程目標與整體架構,回顧資訊檢索的發展歷史,說明從傳統文件檢索到網路搜尋引擎的演進,以及搜尋技術如何成為現代資訊社會的重要基礎。
- Introduction: Goals and history of IR. The impact of the web on IR.
第2週 說明基本文字處理流程,包括斷詞、停用詞移除與詞幹化等技術。介紹倒排索引(inverted index)的建構原理,以及如何利用稀疏向量進行高效率檢索。
介紹布林模型與向量空間模型,說明文件與查詢的表示方式,以及排名式檢索的概念。

- Basic IR Models: Boolean
第3週 說明基本文字處理流程,包括斷詞、停用詞移除與詞幹化等技術。介紹倒排索引(inverted index)的建構原理,以及如何利用稀疏向量進行高效率檢索。
- Basic Tokenizing, Indexing, and Implementation of Vector-Space Retrieval: Simple tokenizing, stop-word removal, and stemming; inverted indices; efficient processing with sparse vectors
第4週 本週將介紹資訊檢索中最核心的概念之一:文本相似度計算。課程將從文件與查詢的向量化表示出發,說明如何將文字資料轉換為可計算的數值向量,並透過數學方法衡量兩段文本之間的語意相關程度。

課程內容包括:

詞頻(Term Frequency, TF)與反文件頻率(Inverse Document Frequency, IDF)的概念
TF-IDF 權重的計算方式與直觀意義
向量空間模型(Vector Space Model)
Cosine similarity 等常見文本相似度指標

如何利用相似度進行排名式檢索(ranked retrieval)

text-similarity metrics; TF-IDF (term frequency/inverse document frequency) weighting; cosine similarity.
第5週 介紹資訊檢索系統的評估方法,包括 precision、recall 與 F-measure 等指標。並說明如何使用標準測試資料集進行實驗與系統比較。
- Performance Evaluation
第6週 介紹網頁搜尋的基本概念與架構,並說明 PageRank 與 HITS 等連結分析演算法,理解如何利用網頁間的連結結構提升搜尋品質。
- Page Rank
- Web Search: Link Analysis, HITS algorithm
第7週
- Midterm Exam
第8週 - Word Embedding 介紹分散式詞向量的概念,說明 word2vec、GloVe 與 fastText 等模型,並探討向量空間中的語意關係與應用。
第9週 - BERT and Pretrained Language Model
介紹 BERT 等預訓練語言模型的核心概念,包括預訓練與微調流程,並說明其在文本理解與檢索任務中的應用。
第10週 - Reading Comprehension Model
- Language Generation Model
介紹閱讀理解模型與生成式語言模型的基本架構,說明從理解型模型到生成型模型的發展,並銜接至大型語言模型(LLM)的基本概念。
第11週 - Paper Presentation
第12週 - Paper Presentation
第13週 - Paper Presentation
第14週 - Paper Presentation
第15週 - TBA
第16週 - Final Exam
自主學習
內容
   01.參與專業論壇、講座、企業分享等產官學研相關交流活動
   03.製作專題報告

學習評量方式
1. Programming Assignment 20%
2. Midterm 20%
3. Final Exam: 30%
4. Paper Presentation 30%
教科書&參考書目(書名、作者、書局、代理商、說明)
1. Manning, Introduction to Information Retrieval.
2. Dive into Deep Learning
課程教材(教師個人網址請列在本校內之網址)
N/A
課程輔導時間
By appointment
聯合國全球永續發展目標(連結網址)
04.教育品質提供體驗課程:N
請尊重智慧財產權及性別平等意識,不得非法影印他人著作。
更新日期 西元年/月/日:2026/02/10 17:46:34 列印日期 西元年/月/日:2026 / 5 / 06
MyTB教科書訂購平台:http://www.mytb.com.tw/