課程時長:3天
機器翻譯Machine Translation、信息檢索Information Retrieval、自動文摘Automatic summarization/abstracting、文檔分類Document Categorization、問答系統Question-answering system、信息過濾Information filtering、語言教學Language Teaching、文字識別Character Recognition、自動校對Automatic Proofreading、語音識別Speech recognition
① 形式語法:4元組
② 最左推導、最右推導和規范推導
③ 句型與句子
④ 正則文法
⑤ 上下文無關文法CFG
⑥ 上下文有關文法CSG
⑦ 確定的有限自動機DFA
⑧ 不確定的有限自動機NFA
① 國內語料庫:漢語現代文學作品語料庫、現代漢語語料庫、中學語文教材語料庫、現代漢語詞頻統計語料庫
② 布朗語料庫、LLC口語語料庫、朗文語料庫、賓州大學語料庫、北京大學語料庫、臺灣中科院平衡語料庫、Chinese LDC、LC-STAR項目
③ 抽取詞匯、標注詞性、拼音、WordNet、知網
④ 同義關系、反義關系、上下位關系、部分關系
① n階馬爾科夫鏈語言模型
② 隱馬爾科夫模型HMM
③ 概率上下文無關文法
④ 概率鏈接語法
① 有詞典切分/無詞典切分
② 基于規則分析方法/基于統計方法
③ 最大匹配法(正向、逆向、雙向)
④ 最少分詞法
⑤ 基于統計模型法的分詞方法
① 規則系統、原則系統
② X理論、格理論、管轄理論、θ理論、約束理論、控制理論、界限理論、
③ 功能合一文法FUG
④ 詞匯功能語法、廣義的短語結構語法、樹連接語法、
⑤ 線圖分析法:字底向上chart
⑥ 概率上下文無關文法PCFG
① 語義網絡:概念關系、事件語義網絡表示、事件的語義關系、基于語義網絡的推理分析
② 格語法:定義、格表、格框架約束
③ CD理論:基本動作、劇本、計劃
④ 主題模型PLSA、LDA
⑤ 關鍵字樹