语料库语言学与中国外语教学_桂诗春

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

2010 年 11 月 现代外语(季刊) November 2010

第 33 卷 第 4 期 Modern Foreign Languages (Quarterly ) Vol.33 No.4

语料库语言学与中国外语教学
桂诗春 冯志伟 杨惠中 何安平 卫乃兴 李文中 梁茂成

[编 者 按 ] 为 推 动 我 国 应 用 语 言 学 研 究 的 新 发 展 ,教 育 部 人 文 社 科 重 点 研 究 基 地 —广
—— 东
外 语 外 贸 大 学 外 国 语 言 学 及 应 用 语 言 学 研 究 中 心 于 2010 年 9 月 24-25 日 成 功 举 办 了 “首 届 广 外
应 用 语 言 学 论 坛 ”,庆 贺 我 国 著 名 语 言 学 家 、应 用 语 言 学 学 科 的 开 拓 者 桂 诗 春 教 授 八 十 华 诞 。 期
间 ,举 行 了 题 为 “语 料 库 语 言 学 与 外 语 教 学 ”的 高 层 论 坛 ,就 语 料 库 语 言 学 的 现 状 、发 展 前 景 及 语
料 库 的 建 设 、共 享 、应 用 等 展 开 了 互 动 讨 论 。 以 下 是 根 据 专 家 发 言 ,整 理 后 的 主 要 内 容 。
[中图分类号] H319 [文献标识码] A [文章编号] 1003-6105 (2010 )04-0419-08

语料库语言学的发展前景与资源共享

广东外语外贸大学 桂诗春

1. 语料库语言学的发展前景 时代, 但 Herdan 觉 得 有 两 件 语 言 事 实 值 得 我


语料库语言学在外国和国内都发展很快 , 们 注 意 : 一 是 大 量 语 言 资 料 (language in
有的人选择了它作为发展方向 ,因为它的入门 mass ), 二 是 语 言 排 列 (language in line ), 它 们
比 较 容 易 ,上 手 较 快 ;有 的 人 把 语 料 库 语 言 学 是任何语言运作都不能离开的两个方面。 某些
作为收集数据的重要手段。 但是总的来说,我 语言学研究分支如果考虑到这两个方面 ,将 会
们的语料库研究还处在比较初级阶段 ,需要 提 从中获益。 当时还没有真正的机读语料库,
高。 究其原因是很多人把它看成是一种工具或 Brown 的 语 料 库 在 1967 年 才 面 世 , 美 国 心 理
手段,可以运用现有的一些现成的程序和公 开 学家 John Carroll 根据该 语料库以 及 他 后 来 参
的 语 料 库 , 如 Brown ,LOB ,Frown. Flob , 与 制 作 500 万 词 的 AHI 语 料 库 , 所 提 出 的 词
BNC , CLEC ,只要选题得当 ,就 能 获 得 很 多 量 汇 频 数 对 数 正 态 模 型 (lognormal model ) 均 源
化的数据,从而写出洋洋洒洒的文章来 。 在 计 于 Herdan 所 奠 定 的 基 础 。 一 直 到 最 近 美 国
算机和扫描仪的支持下,自行收集一些语 言素 Barber 利 用 计 算 机 对 英 语 语 体 的 各 种 研 究 ,更
材,建立一个特定的语料库,也不是什么难事。 是利用了因子分析的统计方法。 其次是计算机
我觉得, 语料库语言学既是一种工具 ,但 科学。 语料库的发展离不开现代科学技术 ,其
更是一门学科;它是对语言行为进行概率性归 主要表现是个人电脑、扫描仪和大容量硬盘 的
纳和概括的一门学科, 它本身是跨学科性的, 普及, 当初 Brown 语料库要动用到大型电脑,
要做语料库语言学研究必须许多方面要有比 而到如今,只需一万元左右就能在家里拥有这
较雄厚的基础。 首先是数学和统计学。 Herdan 些 设 备 , 制 作 出 甚 至 比 Brown 还 要 大 的 语 料
(1960 ) 的 一 本 早 期 著 作 , 叫 做 《 词 次 / 词 型 数 库。 但是我们往往只注意到硬件部分 ,而不认
学》(Type / token Mathematics ), 其副标题就是 识到软件的建设。 从事语料库语言学研究的人
《 数 理 语 言 学 教 科 书 》 (A Textbook of 而不掌握一到两种编成语言,也不可能拓展 他
Mathematical Linguistics ), 当时还是前计算机 们的研究领域,因为他不能根据个人的研 究需
420 语料库语言学与中国外语教学

要,通过计算机自行编程来检验假设。 此外,要 多 种 :一 是 免 费 提 供 ,最 典 型 的 例 子 是 George


做 语 料 库 语 言 学 研 究 ,文 本 分 类 (又 叫 文 本 分 Miller 领 衔 制 作 的 英 语 大 型 词 汇 数 据 库
析或内容分析)也必须具备雄厚的基础。 它的 Wordnet 受 到 各 方 面 资 助 ,前 后 参 与 制 作 的 不
研 究 范 围 也 很 广 ,从 信 息 的 提 取 、组 织 、储 存 , 下一千人,而且还在不断 完善。 他们认为这不
文 本 (包 括 语 体 )的 分 析 ,社 会 舆 论 调 查 ,著 作 是一个商品,应该为公众 所有。 二是提供网上
归属到文本格式。 这也牵涉到许多统计学知识 服 务 ,整 个 语 料 库 不 提 供 ,但 是 在 网 上 可 以 自
和计算机知识。 数理语言学和计算机语言学的 由检索获得数据,像美国 Brigham Young 大学
研究对象是文本和语篇。 有志于研究这门科学 的 Mark Davies 在 他 的 网 页 上 检 索 美 国 现 代
的必需具有这些基础训练,否则不会走得很 远 英 语 语 料 库 、美 国 历 史 英 语 语 料 库 、英 国 国 家
的。 我觉得,当务之急是让我国语料库语言 学 语料库、《时代》杂志语料库、西班牙语语料库、
的先行者们聚在一起,研究语料库语言学 作为 葡萄牙语语料库以供检索。 三是成立语料库分
一门科学应该在什么层次上开设? 它有什么基 配 中 心 ,收 少 量 成 本 费 提 供 语 料 库 ,像 挪 威 的
本内容? 由哪些核心课程组成? 只有规范语料 ICAME (International Computer Archive of
库语言学专业的课程,按照这些课程设置来 培 Modern and Medieval English ), 美 国 的 LDC
养我国语料库语言学的学生,他们才能高 瞻远 (The Linguistic Data Consortium ),等 等 。 一 些
瞩,取得真正的进展。 语料库工具, 如 TACT 、LEXA ,Wordcruncher ,
2. 资源共享问题 Wordsmith 、Antconc 也 都 很 容 易 在 网 上 获 取 。
语料库语言学对资源有很大的依赖性 ,为 资源共享的理念是, 只要有更多 的人使用,我
了促进语料库语言学在我国的发展 ,应该提倡 们 所 开 发 的 资 源 、工 具 才 能 完 善 ,学 科 才 能 发
资源共享。 回顾语料库语言学在国外的迅猛发 展。 只有互通有无,才能共同协作,才能减少重
展,和资源共享有密切的关系。 共享的方法有 复劳动,制作出更成熟的成品。

双语语料库的建设与用途

国家教育部语言文字应用研究所 冯志伟

1. 双语料库的建设 过 的 语 料 , 如 宾 州 树 库 (Penn Treebank ), 布 拉


我很赞同桂诗春教授的意见 ,积极推进语 格依存树库 (Prague Dependency Tree Bank ),
言资源的共享, 语料库只有共享才能变成财 命 题 库 (PropBank ), 宾 州 话 语 树 库 (Penn
富,如果把语料库的研究成果“藏诸名山,束之 Discourse Treebank ), 修 辞 结 构 库 (RSTBank )
高阁”,只是一堆数据垃圾,必将自毁前程。 桂 和 TimeBank (我不知道 TimeBank 这 个 名 称 如
诗春教授刚才提到宾西法尼亚大学的 何翻译为中文)。 这些语料库是带有句法、语义
Linguistic Data Consortium (我建议最好翻译为 和语用等不同层次的标记的标准文本语言资
“ 语 言 数 据 联 盟 ”, 简 称 LDC ), 是 一 个 很 好 的 源。 这些语言资源的存在大大地推动了人们使
供语料库语言学研究者进行交流互动的平台 。 用 “ 有 监 督 的 机 器 学 习 方 法 ” (supervised
在语言数据联盟和其他相关机构的帮助下 ,研 machine learning )来 处 理 那 些 在 传 统 上 非 常 复
究者们可以获得口语和书面语的大规模的语 杂 的 自 动 句 法 剖 析 (automatic syntactic
料。 重要的是,在这些语料中还包括一些标注 parsing ) 和自动语义 分析 (automatic semantic
桂诗春 冯志伟 杨惠中 何安平 卫乃兴 李文中 梁茂成 421

analysis )等问题。 这些语言资源也推动了有竞 推进英语教学,我们可以从双语语料库中抽 取


争性的评测机制的建立,评测的范围涉及到 自 教材的原材料,帮助语言学习者提高对于 真实
动 剖 析 (parsing )、 信 息 抽 取 (information 语言材料的语感,从而编写出高质量的 外语教
extraction )、 词 义 排 歧 (word sense 材。 有的外语老师冥思苦想地根据自己的语感
disambiguation )、 问 答 系 统 (question-answer 来编写教材,费时费力,其实,如果依靠英汉双
system )、 自 动 文 摘 (automatic summarization ) 语平行语料库, 就可以减轻搜集素材之困难 ,
等领域。 大大提高编写教材的工作效率。
几年前由中国中文信息学会发起 ,在北京 另外, 语料库中蕴藏着无比丰富的知识
创 建 了 “ 中 文 语 言 数 据 联 盟 ” (Chinese 等 待 我 们 去 挖 掘 ,如 果 我 们 使 用 “文 本 数 据 挖
Linguistic Data Consortium ,缩 写 为 CLDC ),是 掘 ” ( text data mining ) 的 技 术 , 从 语 料 库 中 挖
一个自愿组成的学术性社会团体 ,其宗旨是团 掘 知 识 ,既 可 以 挖 掘 语 言 学 的 知 识 ,也 可 以 挖
结中文语言资源建设领域的广大科技工作者 , 掘非语言学的知识, 就像从矿石中挖掘出黄
建成代表中文信息处理国际水平的 、通用的中 金一样, 这些知识可以弥补传统语言学的不
文语言和语音的资源库。 欢迎语言学界的同仁 足, 克服研究者的主观性和片面性。 我们在
积极参与 CLDC 的工作,促进语料库资源的共 text data mining 这 个 术 语 中 使 用 mining ( 挖
享。 掘 )这 个 单 词 ,而 没 有 使 用 extraction (抽 取 )这
目前单语语料库很多, 已取得煌煌的成 个单词, 正是为了强调在从语料库中获取知
绩,但 双语并行 语 料 库 (parallel corpus )不 容 易 识的时候,要开 动脑筋,要经过一番“去 粗 取
获得,它的构建和加 工是很困难的工作 。 我国 精 ,去 伪 存 真 ,由 此 及 彼 ,由 表 及 里 ”的 深 思 熟
还没有高质量的、大 规模真实文本的英汉双语 虑的功夫来加工数据, 而不要被海量的数据
语料库,更没有成熟的、可共享的加工工具,最 所 迷 惑 。 数 据 就 像 矿 石 ,我 们 的 任 务 是 从 海 量
近公布的 2010 年国家 社会科学基金重大 项 目 的数据中挖掘出隐藏在其中的有规律性的东
中有一项就是“大规 模英汉平行语料库的构建 西 , 把 海 量 的 、 离 散 的 “ 数 据 ” ( data ) 变 为 精 炼
与加工研究”, 资助 强度大约是 50 万元左右, 的 、 系 统 化 的 “ 知 识 ” ( knowledge ), 从 而 把 经
可见国家对于双语语料库建设的重视。 这个项 验主义方法和理性主义方法紧密地结合起
目是我和王克非教授在今年的社科基金评审 来 。 这 种 知 识 获 取 方 法 上 的 巨 大 变 化 ,有 可 能
会 议 上 建 议 提 出 的 ,已 开 始 招 标 ,希 望 大 家 积 引 起 整 个 语 言 学 研 究 的 “战 略 转 移 ”( strategy
极投标,积极推进我国的双语语料库建设。 transit ); 我 们 中 国 的 语 言 学 家 应 当 敏 锐 地 关
2. 如何将语料库语言学运用到外语教 注 “战 略 转 移 ”问 题 ,做 出 我 们 的 应 有 的 贡 献 ,
学,如何从语料库中挖掘知识? 千万不要错过这个在语言学历史上千载难逢
我认为英汉双语语料库的最大用途就是 的良机。

语料库语言学的应用研究与贡献

上海交通大学 杨惠中

1. 语 料 库 语 言 学 的 应 用 研 究 外 语 教 学 ”我 觉 得 很 好 ,很 及 时 。 语 料 库 语 言
这 次 专 题 讨 论 的 题 目 “语 料 库 语 言 学 与 学 本 来 就 是 实 践 性 、应 用 性 很 强 的 一 门 学 科 ,
422 语料库语言学与中国外语教学

脱 离 了 应 用 ,坐 而 论 道 ,也 就 失 去 了 发 展 的 基 用法。
础 和 动 力 ,将 变 成 无 本 之 木 、无 源 之 水 。 外 语 语料库语言学另外一个重要应用领域是
教学正是语料库语言学的重要应用领域 ,语 自然语言处理, 今天在计算机自然语言处理
料库语言学以实际使用中的语言事实作为研 领域里, 基于规则的方法已经让位于基于概
究对象 是一种着眼于语言运用的研究方法 率 的 方 法 ,也 就 是 语 料 库 语 言 学 方 法 ,并 且 已
( performance-based approach ), 因 此 跟 语 言 教 经取得显著成果, 充分说明语言概率模型的
学有着直接的关系, 对真实语言交际的各个 生命力。
方 面 ,包 括 词 汇 的 、句 法 的 、语 义 的 、语 用 的 、 2. 语 料 库 语 言 学 促 进 语 言 学 研 究
语 篇 的 ,进 行 深 入 的 探 讨 和 全 面 的 描 写 ,其 研 语料库语言学作为一种研究方法,今
究成果可以应用在教学大纲设计中, 为确定 天没有人怀疑, 事实上众多研究领域已经
教学内容、 制定教学目标提供坚实可靠的决 离不开基于语料库的研究方法, 比如社会
策依据。 语言学、语用学、会话分析、语体分析、儿童
语料库语言学在外语教学中的应用研究 语言发展研究等等,而在有些领域 ,像词典
在 三 个 方 面 应 当 加 强 。 首 先 ,充 分 利 用 在 国 内 编纂, 基于语料库的方法则已经是当今词
已经建成的中国学习者英语赋码语料库 ,包 典编纂的范式, 很难想象任何原创性的词
括书面语语料库和口语语料库, 进一步深入 典编纂项目可以没有自己的语料库的支
研究中国学生学习英语的典型困难所在 、研 持。
究中国学生运用英语的特点、 调查不同类型 语料库语言学作为一门学科, 则尚有争
和不同背景的学生的语言特征、 探讨学生的 论。 我们认为语言学的任务就是对语言进行
学习策略、 研究有关学习者语言发展的全面 科学的研究。 由于人类语言涉及人类生活的
信 息 ,以 便 建 立 有 中 国 特 色 的 英 语 教 学 体 系 。 方方面面, 对语言的研究可以从不同的侧面
其 次 ,把 语 料 库 语 言 学 的 研 究 成 果 ,包 括 对 预 着 手 ,社 会 的 、心 理 的 、历 史 的 、地 理 的 、人 种
构成语块、词语搭配与用法、关键词、错 误 分 的、比较的 、甚至神经生理的、病理诊 断 的 等
析 等 方 面 的 研 究 成 果 ,建 成 语 言 数 据 库 ,提 供 等 ,由 于 人 类 语 言 的 复 杂 性 ,每 一 方 面 的 研 究
在线帮助, 把研究成果直接应用于教材开发 都会使我们对语言的本质获得进一步的认
和 课 堂 教 学 ,提 高 语 言 教 学 的 有 效 性 。 再 次 , 识 ,人 类 的 认 识 是 没 有 止 境 的 。
可 以 为 高 端 学 生 提 供 “ 数 据 驱 动 学 习 ”, 由 教 语料库语言学以真实语言数据为研究对
师开发有针对性的小型专用语料库, 学生利 象 ,凭 借 计 算 机 技 术 ,采 用 数 据 驱 动 的 实 证 主
用词语索引软件, 通过与母语语料的对比分 义研究方法, 从宏观的角度对大数量的语言
析 ,自 己 探 索 英 语 词 语 的 用 法 ,让 学 生 直 接 接 事实、 对语言交际和语言学习的行为规律进
触 复 杂 的 语 言 现 象 ,在 老 师 指 导 下 ,通 过 实 际 行多层面的研究, 尤其是提供有关语言使用
观 察 语 境 ,通 过 分 析 、对 比 、综 合 、归 纳 ,自 己 的概率信息, 这就为语言学研究提供了新的
发 现 规 则 ,做 出 假 设 ,通 过 “探 索 ”进 行 学 习 , 途 径、带来了新的理念、新的方法,这 方 面 的
掌 握 地 道 的 英 语 、发 展 英 语 语 感 。 当 然 ,不 能 研究必然使人们加深对语言本质的理解 ,这
让学生迷失在海量 的语言 “事实”中,应 当 进 些研究当然属于语言学研究范畴。 至于语料
一 步 开 发 便 于 使 用 的 、界 面 友 好 的 检 索 工 具 、 库 语 言 学 学 科 的 研 究 对 象 、范 围 、方 法 等 怎 样
分析工具等辅助语言学习软件, 并且对语料 进行界定, 这将是新一代语料库语言学家面
进行预分析, 帮助学生迅速找到语言的正确 临的任务。
桂诗春 冯志伟 杨惠中 何安平 卫乃兴 李文中 梁茂成 423

语料库的教学加工理念与应用

华南师范大学 何安平

1. 语料库语言学从工具和方法正走向理 展到深入探究如何与其他学科的理论和方法
论构建 相结合以及如何解决在教学实施过程中遇到
语料库语言学经过近半个世纪与计算机科 的 理 论 困 惑 、工 具 改 良 、教 材 设 计 和 教 学 方 法
学的协同发展, 已经从早期的建设大规模语料 等实际问题。 在国内,业内人士虽然越来 越认
库、 开展语言调查和研发检索工具进入到语言 同语料库作为一种新资源和新技术对外语教
学理论构建及更加广泛深入应用的阶段。 语料 育教学有巨大的潜在价值,但是语料 库辅助的
库使人类掌控的语言资源空前巨大、 检索和提 教学还未能切实进入外语教学的 主流 (即课堂
取语言信息的手段空前快捷和灵活, 它先从改 教 学 )。 2010 年 在 捷 克 召 开 的 第 9 届 “教 学 与
变人们观察语言的方式进而发展到改变人们对 语 料 库 (TaCL )国 际 研 讨 会 更 提 出 一 种 观 念 转
语言本质的认识。 其中对语言意义的构建单位 变 :即 ,不 是 由 专 家 学 者 向 一 线 教 师 宣 讲 可 能
和表达范式的研究就已经涌现出一批创新性的 利用语料库来做什么,而是由一线老师提出需
理论成果,包括“词汇语法理论”、“口语语法”和 要用语料库来做什么,然后再共同研究如何 解
“短语理念”等等。 上述的理论发展自然对语言 决这些教学上的实际问题。 语言教师要从 “语
教育,尤其是外语教学产生触媒作用,并且已经 料 库 产 品 (如 教 材 )”的 “消 费 者 ”转 变 为 “合 作
引发了一系列外语教学理念改革。 例如, 词汇 研发者”、“实践反思者”和“教师自我发展的行
教学是教单词还是教短语搭配? 教搭配是仅教 动者”。
词汇和语法形式搭配还是要扩展至教语义或语 3. 语料库应用于外语教学的发展趋势
用搭配? 词汇和语法是分开教还是……? 所以, 语料库语言学在该领域的发展至少有以
国外有学者称“语料库是一场革命”。 下几个趋势。 一是着力建设外语学习者语料
2. 语料库的“教学加工”理念 库 、口 语 语 料 库 和 专 门 学 科 或 行 业 语 料 库 (如
语 料 库 的 “ 教 学 加 工 ” (pedagogic 英 语 ESP );二是创建多模态语料库,即 语 料 库
processing ) 是 目 前 国 内 外 不 少 学 者 对 语 料 库 与音频和视频相链接的、甚至是同步共现的综
语言学应用于语言教育教学的深刻反思。 它包 合性教学资源库;三是将语料库语言学纳入师
括如何让语料库走进语言教学大纲的设置 、教 范教育和继续教育的必修课程 ,使之成为外语
材 的 编 写 、课 堂 教 学 活 动 设 计 、实 施 和 效 果 评 教师必备的教学资源和信息技术。 我们华南师
估等等。 目前在国外,语料库应用于教学的 研 范大学的语料库语言学教学团队将一如既 往 ,
究已经从宣传和介绍其可能性和潜在意义发 朝着这些趋势努力探索实践。

语料库语言学的学科地位及外语教学服务

北京航空航天大学 卫乃兴

1. 语料库语言学的学科地位与争议 言教学中的实际问题为己任,无疑挑战理论 语
关于语料库语言学的学科定位 ,一直众说 言学。 然而,及至 1990 年代,大量新的研究 发
纷纭。 语料库研究创始之初,先贤们以解决语 现 问 世 ,触 动 了 语 言 学 的 方 方 面 面 ,也 引 起 了
424 语料库语言学与中国外语教学

诸 多 反 弹 。 在 理 论 语 言 学 阵 营 ,Chomsky 说 的观点一语中的。 中国的语料库研究应当也


“Corpus linguistics does not exist ” (Tognini 必须为外语教学服务。 遗憾的是, 过去数年
Bonelli 2001 : 50 )。 在 应 用 语 言 学 阵 营 , 间 ,语 料 库 帮 助 一 大 批 学 子 获 得 了 硕 士 、博 士
Widdowson (2000 )认为,语料库语言学 的 研 究 学位, 却未能有效帮助外语教师和学生提升
成果不能应用于语言教学,如果那样做,就是在 教学效果。 我认为, 应当首先从教师培训做
搞 Linguistics applied 。 显然,Widdowson 认为语 起。 帮助教师从语料库证据归纳最频繁使用
料库语言学不属于应用语言学。 然而,Halliday 的 类 联 接 型 式 、最 频 繁 使 用 的 词 语 搭 配 、最 频
(1993 :1 )却认为 ,将语料库语言 学 家 与 理 论 语 繁表达的意义和功能; 帮助他们学会发现新
言学家区分开来是非常奇怪的做法 ,因为语料 的 语 言 事 实 ,新 的 意 义 和 用 法 模 式 。 这 对 发 展
库语言学是一种理论性极高的探索。时至今日, 他们的语言意识大有裨益。 教师的语言意识
大家仍在讨论, 并无共识。 我个人十分赞赏黄 提 高 了 ,使 用 语 料 库 的 技 能 娴 熟 了 ,观 念 发 生
国文教授刚才主旨报告中讲的观点 ,即语料 库 了变化, 会逐步改进教学, 并最终使学生受
语言学和功能语言学一样, 属于 Halliday 所阐 益。
述的“适用语言学”(Appliable linguistics )。 事实 3. 语料库语言学的现状和未来
上,几年前我在洛阳举行的一次会议上也提 出 全球范围内的语料库语言学现状可谓喜
过类似的观点。 也就是说, 语料库语言学是介 忧参半。 一方面,越来越多的不同学术路线和
于理论语言学与应用语言学之间的一种语言 背景的研究者加入到了语料库研究队伍 ,包括
学,它的研究活动及其成果既适用于语 言理论 心智语言研究者,阵容空前庞大,异彩纷呈。 另
构建,也适用于语言教学的实践。“适用语言学” 一 方 面 ,各 种 学 术 理 念 和 方 法 交 织 碰 撞 ,有 些
是个十分有用的概念,因为有些语言学在可 预 做法已经明显不同于第一代语料库学者创设
见的将来是无法应用的。 它可以较好地解决语 的基本经典方法。 问题不在于能做什么;平 行
料库语言学的学科定位问题。 语料库、多模态语料库、动态语料库等等,都 可
关于中国国内过去数年进行的语料库研 以做。 问题在于如何做:任何学科都有其认 识
究, 我认为基本上属于应用语料库语言学 论 和 方 法 论 ;背 离 了 基 本 立 场 和 方 法 ,就 不 再
(Applied Corpus Linguistics ),因为 大 家 主 要 是 属于该学科了。 总之,这个学科的未来有很 多
针对二语习得和教学问题进行探讨。 不确定性。 不过,我们什么时候都应相信严 肃
2. 语料库技术在外语教学中的运用 科学的力量。
杨惠中教授关于语料库应用于外语教学

语料库开发与语料库研究

河南师范大学 李文中

1. 语 料 库 语 言 学 的 发 展 问 题 库开发正在向两头快速发展和延伸: 一是通
我不敢去做什么预测, 只是把我们自己 用 型 的 、基 于 网 络 的 超 大 型 语 料 库 开 发 ,其 主
正在做的和希望做到的, 以及在此过程中碰 要特征是应用新技术新方法, 如网络服务和
到 的 一 些 困 扰 ,向 在 座 的 各 位 汇 报 ,并 请 大 家 云 计 算 ,提 供 可 定 制 的 动 态 开 放 语 料 库 ,以 满
指 导 。( 1 )语 料 库 开 发 问 题 。我 们 感 觉 到 ,语 料 足使用者日趋多元的需求和应用取向; 二是
桂诗春 冯志伟 杨惠中 何安平 卫乃兴 李文中 梁茂成 425

个性化、专门化、行业化的小型语料库 开 发 。 具和应用是语料库语言学学科从一开始就不
前者需要大规模的投入和专业化的开发队 可 或 缺 的 要 素 。 它 既 不 是 纯 理 论 的 推 演 ,也 不
伍 ,愈来愈注重数据挖掘、信息智能处理 、以 是机械的泛工具。 纯粹把语料库当作工具的
及知识挖掘, 强调语料库数据的组织结构和 学科需要谨慎, 他们可能要么为语料库大量
呈现 方式;而后者仅需要小规模、小投入 ,开 产生的“废料”感到头疼,要么为无 限 增 长 的
发者即是研究者, 又是研究成果的田野使用 反证而感到束手束脚。 语料库语言学方兴未
者 ,更 强 调 语 料 库 的 整 体 平 衡 性 和 代 表 性 。 当 艾, 目前对其发展作任何预测可能都是徒劳
然 ,二 者 虽 离 心 发 展 ,但 之 间 的 界 限 却 非 泾 渭 的 。 借 用 一 部 电 影 的 对 白 ,对 语 料 库 语 言 学 的
分明,而是相互借鉴,互为发明,互相促进。 发展, 我们只能知道开头, 却永远猜不中结
( 2 )语 料 库 研 究 的 发 展 问 题 。 语 料 库 研 究 需 要 尾。
更 大 的 发 展 纵 深 ,要 解 决 如 何 从 描 述 到 解 释 , 2. 语 料 库 与 外 语 教 学
以及如何从发现到理论建构等难题。 描述须 再汇报一下我们对语料库应用的工作和
完备,解释须充分;研究发现强调可靠 性 ,理 学习体会。 我们河师大团队目前正在解决以
论 建 构 则 注 重 可 验 证 性 。 ( 3 )语 料 库 研 究 方 法 下 几 个 问 题 :( 1 )如 何 使 语 料 库 服 务 语 言 教 学
和 视 野 问 题 。 无 论 是 基 于 语 料 库 的 研 究 ,还 是 的目 标、内容、过程以及评价,使语料 库 应 用
语料库驱动研究, 我们都可能需要解决如何 纳入到教育教学这个整体框架下。 语料库研
从 词 语 分 析 、短 语 学 分 析 到 文 本 分 析 、话 语 分 究成果不仅需要融合应用语言学理论, 还需
析以及文本群落分析的视角和方法问题 ,把 要教师行动研究来具象, 使之语境化、 具体
具体的、 散点的词语层研究统一到多维纵深 化 ,更 富 于 针 对 性 。 ( 2 )基 于 语 料 库 的 学 习 平
的文本整体研究上, 这使得语料库研究方法 台 应 与 网 络 无 缝 联 接 。 ( 3 )多 媒 体 语 料 库 集 成
和视野呈收敛趋势: 不是用其它各个学科的 语料库检索技术、 网络音视频流媒体技术及
理论和观点来观照和审视语料库语言学 ,而 人 机 交 互 界 面 ,在 学 科 教 学 理 论 指 导 下 ,为 语
是拿语料库语言学来观照和审视相关的研究 言教学提供底层数据支持, 真正实现虚拟语
发 现 和 成 果 。 ( 4 )语 料 库 研 究 应 用 问 题 。 语 料 料驱动学习。
库 研 究 应 用 越 来 越 多 元 化 和 日 常 化 。 方 法 、工

大型语料库的合理使用与共建共享
北京外国语大学 梁茂成

1. 外 语 教 学 中 如 何 合 理 使 用 大 型 语 料 总容量达到一亿词的英国国家语料库
库 ( British National Corpus ) 存 放 到 自 己 的 服 务
这里我想谈两个问题。 第一个是语料库 器上,并提供网络入口,任 由学生进行“探 索
在外语教学中的应用问题。 正如许多学者所 性 学 习 ”。 对 这 位 老 师 的 高 超 技 术 和 热 情 投 入
言 ,语 料 库 的 最 大 优 势 在 于 其 语 言 的 真 实 性 , 我 十 分 佩 服 ,但 不 难 想 象 ,大 型 通 用 语 料 库 往
有别于教师凭直觉杜撰出来的例句。 或许是 往 口 笔 语 兼 收 、语 料 庞 杂 ,口 语 方 面 包 含 日 常
受 这 种 思 想 的 启 发 ,前 一 阵 子 ,有 一 位 老 师 很 会话、公共演讲、电视访谈等;笔语方 面 既 涉
得意地向我演示他如何利用数据库技术 ,将 及 书 信 往 来 、娱 乐 小 报 和 时 尚 杂 志 ,又 不 乏 小
426 语料库语言学与中国外语教学

说 戏 剧 、学 术 著 作 和 政 府 文 书 ,不 一 而 足 。 在 京外国语大学语料库语言学团队正在联合全
教学实践中, 若将如此混杂的语料不分青红 国近百所高校的外语教师, 共同建设一个共
皂 白 地 和 盘 托 出 ,交 给 初 涉 外 语 的 学 生 ,无 异 享语料库。 希望这成为国内共建语料库的一
于把刚学游泳的孩子扔到茫茫大海之中 ,其 个 成 功 试 点 。 同 时 ,加 强 共 享 也 十 分 重 要 。 我
结果可想而知。 们 开 发 了 一 些 有 价 值 的 资 源 ,若 拒 绝 交 流 ,这
几乎在语料库问世之时,人们就意识 到 不利于发现问题, 也不利于技术创新。 近几
语料库在外语教学中的广阔应用前景。 的确 年, 北京外国语大学中国外语教育研究中心
有一些学者在大纲制定、教材编写、语言测 语料库语言学团队不断进取, 特别注重与国
试 中尝试使用语料库 ,然而,迄今为止,普 通 内 外 同 仁 的 交 流 。 不 仅 如 此 ,我 们 开 发 了 多 个
外语教师和外语学习者,充分利用语料库的 专 门 用 途 语 料 库 软 件 , 如 PatCount ( 梁 茂 成 、
人少之又少。 造成这种局面的原因是多方面 熊 文 新 2008 ), Colligator ( 许 家 金 、 熊 文 新
的 ,值 得 我 们 思 考 。 在 我 看 来 ,语 料 库 应 用 于 2009 ) 等 , 全 部 免 费 在 专 业 的 语 料 库 论 坛
外语教学应以遵循教育教学规律为首要原 ( www.corpus4u.org )上 与 人 分 享 。 这 些 软 件 极
则。 譬如按照因材施教的个性化学习原则, 大地方便了广大语料库爱好者。 我们衷心地
我们可以为不同学生(或不同课程)定制不 希望桂诗春老师所提倡的共建与共享的精神
同难度的分级语料库。 或者还可按照不同教 可以将我国语料库语言学的发展推向新的高
学目标,从大型语料库 中 精 选 少 量 语 料 以 适 度。
应 课 堂 教 学 的 要 求 ( 我 称 之 为 “ 微 型 文 本 ”)
( 梁 茂 成 2009 ) 。 围 绕 教 材 和 课 程 内 容 构 建 参考文献
的微型文本库将会给外语教学提供丰富且 Halliday , M. A. K. 1993. Quantitative studies and
可操作的真实语言素材;其次,若想使语料 probabilities in grammar. In Michael Hoey (ed ).
库在我国的外语教学和研究中获得更广泛 Data , Description , Discourse [C ]. London :
HarperCollins Publisher , 1-25.
的应用,我们有必 要组 织 一 些 针 对 教 学 实 际
Herden , G. 1960. Type-Token Mathematics [M ]. The
的 专 题 研 讨 , 走 出 “ 象 牙 塔 ”, 以 网 络 论 坛 或
Hague : Mouton.
研修班的形式,同一线 教 师 探 讨 语 料 库 应 用
Tognini-Bonelli , E. 2001. Corpus Linguistics at Work
方面的实际知识。
[M ]. Amsterdam : John Benjamins.
2. 也 谈 语 料 库 资 源 的 共 建 与 共 享 Widdowson , H. G. 2000. On the limitation of
第二个问题是语料库资源共享。 资源问 linguistics applied [J ]. Applied Linguistics 21 ,1 :
题是约束语料库语言学普及和发展的一个突 3-25.
出问题。 这其中包括软件资源和语料库资源 梁 茂 成 ,2009 , 微 型 文 本 及 其 在 外 语 教 学 中 的 应 用
两 方 面 。 我 十 分 敬 仰 桂 诗 春 教 授 ,他 不 仅 传 授 [J ]。 外语电化教学(3 ): 8-12 。
给 我 们 做 人 之 道 ,为 我 们 提 供 学 术 指 导 ,更 重 梁 茂 成 、熊 文 新 ,2008 ,文 本 分 析 工 具 PatCount 在 外
要的是在与桂老师交往中, 他常常与我们共 语教学与研究中的应用 [J ]。 外 语 电 化 教 学

享资源。 (5 ): 71-76 。
许 家 金 、 熊 文 新 , 2009 , 基 于 学 习 者 语 料 库 的 类 联
我 认 为 ,在 语 料 库 资 源 方 面 ,我 们 应 该 加
接 研 究 :概 念 、方 法 与 例 析 [J ]。 外 语 电 化 教 学
强共建和共享。 加强共建指的是在语料库建
(3 ): 18-23 。
设和软件开发方面各单位应加强合作, 整合
智 力 和 人 力 。 对 于 共 建 的 资 源 ,大 家 则 可 以 共
收稿日期:2010-10-15 ;
享使用权。 这样研发出来的产品便不会只存
本刊订正,2010-10-22
储 在 个 别 单 位 实 验 室 的 电 脑 里 。 目 前 ,我 们 北

You might also like