Build your own keyword analysis with our tools
SEO Report
Server Infos
Backlinks

HTML Analysis

Page Status
 

Found

Highlighted Content
Title

我爱自然语言处理 | I Love Natural Language Processing

Description

Keywords

H1

我爱自然语言处理

H2

【科普随笔:NLP主流的傲慢与偏见】
【NLP主流最大的偏见,规则系统的手工性】
如何计算两个文档的相似度全文文档
如何计算两个文档的相似度(三)
人工智能与机器翻译研讨会
如何计算两个文档的相似度(二)
2013年第五届中国翻译职业交流大会—会议通知及报名须知
如何计算两个文档的相似度(一)

H3

H4

H5

Text Analysis

Cloud of Keywords from all content
High relevance
 

texts print corpus composing rhetorical document tfidf writers courses nltk effective topic dictionary sims models stopwords documents brown query exchange 2013-6-23 writing writ english activities silver designed x94that xe2 x80 ideas model text 52nlp rhet assignments filtered matrix visual machine multimodal fast semantic join citizens support stems 推荐系统 compos track 自然语言处理 | 标签为 2013-05-27 gold gensim processing

Medium relevance
 

回复 2013-06-07 series engages doc2bow reading corpora interactive similarities 文档相似度 alphabetic split introduced talents producers html includes consumers educators stemmed logging learning 000*” sort arrived indexing shipment 134*” truck terms language work wex bring natural co-occurrence exchang python stem’ feedback society class tokenized tokenize decomposition install truck” concepts 364*” audiences cn 本文链接地址:http short instructors enumerate tokens id2word=dictionary unique

Low relevance
 

work wex bring natural co-occurrence exchang python stem’ feedback society class tokenized tokenize decomposition install truck” concepts 364*” audiences cn 本文链接地址:http short instructors enumerate tokens id2word=dictionary unique 345*” damaged” fire” silver” tfidfmodel progress collecting a” in” delivery” matrixsimilarity 438*” variety topics topics=2 gold” shipment” 101*arrived scanning determine 366*” arrived” 注:原创文章,转载请注明出处“我爱自然语言处理”:www non-zeros features weights mentions nn-tl investigation county grand jury friday case idf 余弦相似度 主题模型 tf-idf doc … 向量空间模型 文本分析 calculating 浅层语义索引 浅层语义分析 文本相似度 061*of techniques tutorial basicconfig fulton numpy punctuations format=’ asctime students professionals collaborations facilitated lancasterstemmer key=lambda produc multimod -item idea assign deep install” docment item nltk应用 experiences share sorted level=logging delivery s’ written producer number persuade creating consumer videos demonstrations damaged expertise rhetoric infrastructure levelname message envision community enrolled lsimodel includ consum linear business history algebra science xc3 王伟 dynamic biotechnology behavior nlp scale switch… 2013年06月24号 李斌 condition human game love earth

Very Low relevance
 
345*” damaged” fire” silver” tfidfmodel progress collecting a” in” delivery” matrixsimilarity 438*” variety topics topics=2 gold” shipment” 101*arrived scanning determine 366*” arrived” 注:原创文章,转载请注明出处“我爱自然语言处理”:www non-zeros features weights mentions nn-tl investigation county grand jury friday case idf 余弦相似度 主题模型 tf-idf doc … 向量空间模型 文本分析 calculating 浅层语义索引 浅层语义分析 文本相似度 061*of techniques tutorial basicconfig fulton numpy punctuations format=’ asctime students professionals collaborations facilitated lancasterstemmer key=lambda produc multimod -item idea assign deep install” docment item nltk应用 experiences share sorted level=logging delivery s’ written producer number persuade creating consumer videos demonstrations damaged expertise rhetoric infrastructure levelname message envision community enrolled lsimodel includ consum linear business history algebra science xc3 王伟 dynamic biotechnology behavior nlp scale switch… 2013年06月24号 李斌 condition human game love earth frequencies 2013-05-27 基于这个tf-idf模型,我们可以将上述用词频表示文档向量表示为一个用tf-idf值表示的文档向量: 条评论 【nlp主流最大的偏见,规则系统的手工性】 发表于 例如(9,2)这个元素代表第二篇文档中id为9的单词“silver”出现了2次。 有了这些信息,我们就可以基于这些“训练文档”计算一个tf-idf“模型”: onedict 人工智能与机器翻译研讨会 workshop 自然语言处理 | 6 发现一些token貌似丢失了,我们打印一下tfidf模型中的信息: 我们发现由于包含id为0, 4, idfs dfs 2013年06月4号 然后就可以将用字符串表示的文档转换为用id表示的文档向量: token2id 00-17 translation 2013年6月6日15 00 北京大学一教202 特邀嘉宾 语智云帆团队、中科院计算所骆卫华博士、资深职业翻译娄东来先生 活动主持 北京大学mti教育中心王华树老师 关键词 云计算 大数据 机器翻译 tutorial” intelligence ,将文档的token映射为id: dictionary dictionary artificial 我们可以通过这些文档抽取一个“词袋(bag-of-words 保持一致,以下的预处理仅仅是将英文单词小写化: 5这3个单词的文档数(df 为3,而文档总数也为3,所以idf被计算为0了,看来gensim没有对分子加1,做一个平滑。不过我们同时也发现这3个单词分别为a degraded application,只能做实验室里的玩具。 【偏见四】规则系统只能在极狭窄的领域成事,无法做跨领域的系统。 【偏见五】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 text,如社会媒体、口语、方言、黑话、ocr 149*” 文档。 【偏见六】规则系统很脆弱,遇到没有预测的语言现象系统就会 up,无法胜任 728*” lsi的物理意义不太好解释,不过最核心的意义是将训练文档向量组成的矩阵svd分解,并做了一个秩为2的近似svd分解,可以参考那篇英文tutorail。有了这个lsi模型,我们就可以将文档映射到一个二维的topic空间中: 可以看出,文档1,3和topic1更相关,文档2和topic2更相关; 我们也可以顺手跑一个lda模型: 的要害所在。 【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈)。 【偏见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习没有移植性问题,因为算法和系统保持不变,只要改变训练数据即可。 【偏见三】规则系统的手工编制注定其不能 课程图谱 | 4 条评论 人工智能与机器翻译研讨会 发表于 297*” break(什么叫 jump 浅尝辄止,然后 conclusion 发表在 tutorial中的例子相似,我们设置topic数为2: of这样的介词,完全可以在预处理时作为停用词干掉,这也从另一个方面说明tf-idf的有效性。 有了tf-idf值表示的文档向量,我们就可以训练一个lsi模型,和latent 究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。 ◆ 米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 nlp 《立委随笔:语言自动分析的两个路子》 《朝华午拾:在美国写基金申请的酸甜苦辣》 《立委随笔:机器学习和自然语言处理》 【立委科普:从产业角度说说nlp这个行当】 王伟dl 不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。— ) 可怕的不是偏见,偏见无处不在,是人就难免。真正可怕的是偏见的流行,而在nlp这个领域,偏见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些偏见成了常态。 【相关篇什】 【科普随笔:nlp的宗教战争?兼论深度学习】 坚持四项基本原则,开发鲁棒性nlp系统 why break,死机?),开发不了鲁棒(robust)产品。 【偏见七】由于真实世界的自然语言词汇量大,组合关系千变万化,语言学家无法编制规则系统涵盖这些词汇和语法知识来分析语言。 【偏见八】规则系统的结果没有置信度,鱼龙混杂。 【偏见九】规则系统的编制越来越庞杂,最终无法改进,只能报废。 【偏见十】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。 【偏见十一】从结果上看,机器学习总是胜过规则系统。 上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 hybrid hand-coded rules 正常情况下,需要对英文文本做一些预处理工作,譬如去停用词,对文本进行tokenize,stemming以及过滤掉低频的词,但是为了说明问题,也是为了和这篇” 译后编辑 python-numpy python-scipy” apt-get sudo 04,所以安装numpy和scipy比较简单” 之后解压gensim的安装包,直接“sudo setup os上安装numpy和scipy的源码包废了一下周折,特别是后者,一直提示fortran相关的东西没有,google了一下,发现很多人在mac上安装scipy的时候都遇到了这个问题,最后通过homebrew安装了gfortran才搞定:“brew gfortran” pro,在mac 即可; 2)我的本是macbook engineer,说明了这位软件大王对工匠大师的高度重视)。古有鲁班,现有码师(coding os下的安装: 1)我的vps是64位的ubuntu scipy的版本号以及安装步骤,感兴趣的同学可以直接参考。下面我仅仅说明在ubuntu和mac 有国际知名度,在国内外最重要的多个评测(nist openmt evaluation、iwslt、cwmt)中屡获佳绩,作为牵头单位承担了多项国 家重点课题。橙译中科已先后为三星电子、sk电讯、北京市政府、阿里巴巴、科大讯飞、华为、东方灵盾等公司或机构开发了机器翻译系统和核心技术。橙译语音 译后编辑”实践经验等。 语智云帆是一个成长中的创业团队,凭借强大的自然语言处理研发实力和多年积累的海量专业语料资源,语智云帆致力于提供高效率、高质量、低成本的语言服务技术解决方案,并积极探索可能对行业产生深远影响的技术及应用,已在行业中建立起一定的品牌知名度。 橙译中科专注于机器翻译技术的应用,拥有完全自主知识产权的核心机器翻译引擎和技术,并持续研发改进,保证技术始终处于国际先进水平。橙译中科的研究团队具 点话题与学生开展深入交流和讨论。 此次研讨会,语智云帆团队受邀将围绕“人工智能与机器翻译”与同学们进行交流,介绍云计算、大数据等概念及其影响,探讨人工智能与机器翻译技术的发展趋势,以及“机器翻译 学理念、注重翻译实践的培养原则,强调双语转换能力,翻译技术和管理等能力并重的培养策略,不断邀请行业知名人士开展讲座、沙龙、研讨会等活动,就行业热 翻译引擎已经集成到科大讯飞的语音云示范应用“讯飞语点”和中国移动手机门户“灵犀”等产品中,而“专译家”、“电商多语翻译”等垂直翻译软件也已经实际 应用于多家公司的业务中。 发表在 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。 二、gensim的安装和使用 1、安装 gensim依赖numpy和scipy这两大python科学计算工具包,一种简单的安装方法是pip install,但是国内因为网络的缘故常常失败。所以我是下载了gensim的源代码包安装的。gensim的这个官方安装页面很详细的列举了兼容的python和numpy 52nlp 上一节我们介绍了一些背景知识以及gensim 2013年05月27号 自然语言处理 | 留下评论 如何计算两个文档的相似度(二) 发表于 之后仍然是“sudo 采取“线上线下同步”的方式开展,不能直接前往北京大学研讨会现场参与此次活动的朋友,也可以通过新浪微博观看研讨会的图文直播并参与实验和互动。 组织方介绍: 北京大学mti教育中心是北京大学外国语学院从事翻译硕士专业 net。 研讨会形式: 本 blah ldamodel blah(“其不能 up”,“其效率低下”,“其不鲁棒”,等等),或者干脆不给具体理由,直接说“文献【1】【2】【3】尝试了这个问题的不同方面,但这些系统都是手工编制的”,一句话判处死刑,甚至不用讨论它们的效果和质量。手工性几乎成了规则系统的“原罪”,编制这些系统的人因此成为学术共同体背负原罪的二等公民。 手工编制(hand-crafted)怎么了?在日常消费品领域,这是道地的褒义词,是特别的嘉奖,是批量机械化生产和千篇一律的反动,是独特和匠心的代表,是高价格理直气壮的理由。怎么到了nlp领域,突然就成了带有原罪的贬义词了呢。这是因为在nlp领域,代表主流的精算师们由于他们在nlp某些任务上的非凡成功,使得他们居功自傲,把成功无限推广和夸大,给这个community 59截止报名 活动地点:北京大学一教202 活动费用:免费 注意事项:(1)进入北大校门需要出示身份证。(2)参会人员请自带电脑。(3)非经微活动报名人员,请将个人信息、联系方式发送至王老师邮箱:richard@pkumti 移动互联网 主办单位 北京大学mti教育中心研讨会 基本信息 活动时间:2013年6月6日(周四)下午15:00-17:00 报名日期:微活动页面于2013年6月5日(周三)23 【科普随笔:nlp主流的傲慢与偏见】中的第一条是 liwei999 : 【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈)。 nlp(natural processing)主流对规则系统和语言学家大小偏见积久成堆,这一条可以算是万偏之源。随便翻开计算语言学顶级会议的论文,无论讨论什么语言现象,为了论证机器学习某算法的优越,在对比批评其他学习算法的同时,规则系统大多是随时抓上来陪斗的攻击对象,而攻击的理由往往只有这么一句话,规则系统的手工性决定了 人机交互 list表示: 次研讨会除了嘉宾演讲和互动讨论之外,还特别设置了译后编辑现场实验环节(请与会人员自带电脑),嘉宾团队将就实验结果与参会者共同深入探讨。此次活动将 scipy即可; 2、使用 gensim的官方tutorial非常详细,英文ok的同学可以直接参考。以下我会按自己的理解举一个例子说明如何使用gensim,这个例子不同于gensim官方的例子,可以作为一个补充。上一节提到了一个文档:latent 自封了一个 chief setpy gates 是应用学科,最终结果体现在应用软件(applications)上,属于语言软件工程。作为一个产业,软件工程领域吸引了无数软件工程师,虽然他们自嘲为“码工”,社会共同体给予他们的尊重和待遇是很高的(bill 然后将上面那个文档中的例子作为文档输入,在python中用document 这个例子的来源就是这个文档所举的3个一句话doc。首先让我们在命令行中打开python,做一些准备工作 施行了集体催眠术,让人相信机器学习是万能的。换句话说,批判手工编制的劣根性,其隐含的前提是机器学习是万能的,有效的,首选的。而实际情况是,面对自然语言的复杂性,机器学习只是划过了语言学的冰山一角,远远没有到主流们自觉和不自觉吹嘘的如入无人之地的万能境界。催眠的结果是不独不少语言学家以及nlp相关利益方(stake holders,如投资人和用户)被他们洗脑了,连他们自己也逐渐相信了自己编制的神话。 真实世界中,nlp 学位研究生培养的专门机构。自2008年成立以来,mti教育中心坚持以职业化为教 085*delivery marketing circles myth persistent co-ocurrence。以下引用百度空间上一篇介绍相关参考资料时的简要描述: lsi本质上识别了以文档为单位的second-order co-ocurrence的单词并归入同一个子空间。因此: 1)落在同一子空间的单词不一定是同义词,甚至不一定是在同情景下出现的单词,对于长篇文档尤其如是。 2)lsi根本无法处理一词多义的单词(多义词),多义词会导致lsi效果变差。 a grants contextuality 跳至正文 首页关于资源wpmatheditor co-occur context occurring 课程图谱求职招聘 &larr strang的线性代数公开课和相关书籍,你可以直接在网易公开课看相关章节的视频。 关于lsi,简单说两句,一种情况下我们考察两个词的关系常常考虑的是它们在一个窗口长度(譬如一句话,一段话或一个文章)里的共现情况,在语料库语言学里有个专业点叫法叫collocation,中文译为搭配或词语搭配。而lsi所做的是挖掘如下这层词语关系:a和c共现,b和c共现,目标是找到a和b的隐含关系,学术一点的叫法是second-order 当然更推荐mit教授gilbert ng教授同时也是coursera的创始人之一:       最后回到这篇文章的主题,我将会分3个部分介绍,首先介绍一些相关知识点,不过不会详细介绍每个知识点的细节,主要是简要的描述一下同时提供一些互联网上现有的不错的参考资料,如果读者已经很熟悉,可以直接跳过去;第二部分我会介绍gensim的安装和使用,特别是如何计算课程图谱上课程之间的相似度的;第三部分包括如何基于全量的英文维基百科(400多万文章,压缩后9个多g的语料)在一个4g内存的macbook上训练lsi模型和lda模型,以及如何将其应用到课程图谱上来改进课程之前的相似度的效果,注意课程图谱的课程内容主要是英文,目前的效果还是第二部分的结果,第三部分我们一起来实现。如果你的英文没问题,第二,第三部分可以直接阅读gensim的tutorail,我所做的事情主要是基于这个tutorail在课程图谱上做了一些验证。 一、相关的知识点及参考资料 这篇文章不会写很长,但是涉及的知识点蛮多,所以首先会在这里介绍相关的知识点,了解的同学可以一笑而过,不了解的同学最好能做一些预习,这对于你了解topic model以及gensim更有好处。如果以后时间允许,我可能会基于其中的某几个点写一篇比较详细的介绍性的文章。不过任何知识点首推维基百科,然后才是下面我所罗列的参考资料。 1) ng教授在coursera的机器学习公开课,图片显示的是主题模型计算后排名前10的相关课程,andrew analysis,中文译为浅层语义分析)这两个名词常常混在一起,事实上,在维基百科上,有建议将这两个名词合二为一。以下是课程图谱的一个效果图,课程为著名的机器学习专家andrew 中文译为浅层语义索引),lsi和lsa(latent tf-idf,余弦相似度,向量空间模型 这几个知识点在信息检索中是最基本的,入门级的参考资料可以看看吴军老师在《数学之美》中第11章“如何确定网页和查询的相关性”和第14章“余弦定理和新闻的分类”中的通俗介绍或者阮一峰老师写的两篇科普文章“tf-idf与余弦相似性的应用(一):自动提取关键词”和“tf-idf与余弦相似性的应用(二):找出相似文章”。 专业一点的参考资料推荐王斌老师在中科院所授的研究生课程“现代信息检索 modern 中文译为奇异值分解),而svd的作用不仅仅局限于lsi,在很多地方都能见到其身影,svd自诞生之后,其应用领域不断被发掘,可以不夸张的说如果学了线性代数而不明白svd,基本上等于没学。想快速了解或复习svd的同学可以参考这个英文tutorail singular 早期文章 【科普随笔:nlp主流的傲慢与偏见】 发表于 ”的课件,其中“第六讲向量模型及权重计算”和该主题相关。或者更详细的可参考王斌老师翻译的经典的《信息检索导论》第6章或者其它相关的信息检索书籍。 2)svd和lsi 想了解lsi一定要知道svd(singular retrieval 我爱自然语言处理 i c y tutorial latent tutorial 这两个简明版本主要是通过简单的例子直观告诉你什么是svd,什么是lsi,非常不错。 这几个版本的pdf文件我在微盘上上传了一个打包文件,也可以从这里下载:svd-lsi-doc svd tutorail版本: singular garcia所写的svd与lsi的通俗教程,这个系列最早是微博上有朋友推荐,不过发现英文原始网站上内容已经被其主人下架了,原因不得而知。幸好还有google 在csdn上我找到了这个系列“svd与lsi教程系列”,不过很可惜很多图片都看不见了,如果哪位同学发现更好的版本或有原始的完整版本,可以告诉我,不甚感激! 不过幸好原文作者写了两个简要的pdf gz 3 lda 这个啥也不说了,隆重推荐我曾经在腾讯工作时的leader 如何计算两个文档的相似度一 发表在 课程图谱 系列,通俗易懂,娓娓道来,另外rick的其他系列也是非常值得一读的。 未完待续… lda数学八卦“ rickjin的” 其实我也推荐国外这篇由dr high-order common denominator b the c— a— define relation called second-order transit occur in-transit latent 用过之后,只能由衷的说一句:感谢上帝,感谢google,感谢开源! 当前课程图谱中所有课程之间的相似度全部基于gensim计算,自己写的调用代码不到一百行,topic模型采用lsi features 2013-05-27 features 还是以这篇英文tutorial中的查询query为例:gold 061*in lda模型中的每个主题单词都有概率意义,其加和为1,值越大权重越大,物理意义比较明确,不过反过来再看这三篇文档训练的2个主题的lda模型太平均了,没有说服力。 好了,我们回到lsi模型,有了lsi模型,我们如何来计算文档直接的相思度,或者换个角度,给定一个查询query,如何找到最相关的文档?当然首先是建索引了: 090*delivery 101*fire 098*truck truck。首先将其向量化: conclusions,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)因此想到立此存照一下,以后再一条一条细论。下列傲慢之偏见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些偏见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条偏见找一个相应的 可以看出,这个查询的结果是doc2 doc3 当然,我们也可以按相似度进行排序: 最后就是计算其和index中doc的余弦相似度了: 再用之前训练好的lsi模型将其映射到二维的topic空间: 105*damaged 105*shipment 103*gold 102*fire 104*truck 107*shipment 119*silver 系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是偏见之为偏见 097*damaged 110*gold 109*silver 061*in 2013-05-27 crappy 自然语言处理 doc1,和fast tutorial是一致的,虽然数值上有一些差别: 好了,这个例子就到此为止,下一节我们将主要说明如何基于gensim计算课程图谱上课程之间的主题相似度,同时考虑一些改进方法,包括借助英文的自然语言处理工具包nltk以及用更大的维基百科的语料来看看效果。 未完待续… 国际化环境下的职业发展路径 大会邀请高校教育、语言服务、贸易、工程技术和文化交流等领域的国内外专家学者做专题发言。 大会强调思想碰撞,同时借鉴国际会议经验,设立小型机动会场,以促进与会者的深入交流。 继续阅读 国际化环境下的企业国际交流与合作 3 国际化环境下的翻译教育 2 会议面向翻译硕士培养单位、语言服务企业、翻译技术提供商、语言服务客户方等,主题为“翻译教育与国际化人才培养”,并设定了如下三个子议题: 1 发表在 博雅翻译文化沙龙 | 留下评论 如何计算两个文档的相似度(一) 发表于 modelling humans model来解决这个问题,其实方案很简单,就是将两个公开课的文本内容映射到topic的维度,然后再计算其相似度。然后的然后就通过google发现了gensim这个强大的python工具包,它的简介只有一句话:topic 52nlp 前几天,我发布了一个和在线教育相关的网站:课程图谱,这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课,特别是目前最火的coursera,udacity等公开课平台上的课程。在发布之前,遇到的一个问题是如何找到两个相关的公开课,最早的计划是通过用户对课程的关注和用户对用户的关注来做推荐,譬如“你关注的朋友也关注这些课程”,但是问题是网站发布之前,我还没有积累用户关注的数据。另外一个想法是提前给课程打好标签,通过标签来计算它门之间的相似度,不过这是一个人工标注的过程,需要一定的时间。当然,另一个很自然的想法是通过课程的文本内容来计算课程之间的相似度,公开课相对来说有很多的文本描述信息,从文本分析的角度来处理这种推荐系统的冷启动问题应该不失为一个好的处理方法。通过一些调研和之前的一些工作经验,最终考虑采用topic 2013年05月18号 ctpf2013 由博雅翻译文化沙龙发起、北京师范大学和双泽翻译咨询有限公司承办的2013年第五届中国翻译职业交流大会将于2013年5月25日在北京师范大学召开。     2013年05月24号 it 摘自【科普随笔:nlp的宗教战争?兼论深度学习】 看过几篇 合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you scipy 如何计算两个文档的相似度二 发表在 领域代表人物的综述,往往充满了主流的傲慢与偏见,让人惊诧。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,jump ),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别 words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。 需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。 不过关于nlp过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。 虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 课程图谱 | 9 条评论 2013年第五届中国翻译职业交流大会—会议通知及报名须知 发表于 维基百科语料 liwei999 上篇博文【科普随笔:nlp的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz copurs “专美”。从这个意义上看,以知识瓶颈诟病规则系统是可笑的,除非可以证明对所有nlp项目,用机器学习开发系统比编制规则系统,周期短而且质量高(个别的项目可能是这样,但一般而言绝非如此,下面还要详谈)。大体说来,对于nlp的浅层应用(譬如中文切词,专名识别,等等),没有三个月到半年的开发,没有至少一位计算语言学家手工编制和调试规则和至少半个工程师的平台层面的支持,是出不来系统的。对于nlp的深层应用(如句法分析,舆情抽取等),没有至少一年的开发,涉及至少一位计算语言学家的手工编制规则,至少半个质量检测员的协助和半个工程师的平台支持,外加软件工程项目普遍具有的应用层面的用户接口开发以及把开发出来的nlp引擎deploy到大数据上去的 t课程简介 corpus,总共379个课程,每行包括3部分内容:课程名 t课程详情 已经清除了其中的html 下面所示的例子仅仅是其中的课程名: writing tag 52nlp 上一节我们用了一个简单的例子过了一遍gensim的用法,这一节我们将用课程图谱的实际数据来做一些验证和改进,同时会用到nltk来对课程的英文数据做预处理。 三、课程图谱相关实验 1、数据准备 为了方便大家一起来做验证,这里准备了一份coursera的课程数据,可以在这里下载:coursera 2013年06月7号 pdf 如果你愿意看网页,也可以从这个标签进入:文档相似度 发表在 停用词被过滤了,不过发现标点符号还在,这个好办,我们首先定义一个标点符号list 文章相似度 相似度 课程图谱 | 留下评论 如何计算两个文档的相似度(三) 发表于 composing genetics educators general 127 总计127个停用词,我们首先过滤课程语料中的停用词: 好了,首先让我们打开python 加载这份数据: strip 对课程的英文数据进行tokenize之后,我们需要去停用词,幸好nltk提供了一份英文停用词数据: applications the educators coding humankind new playing genes society analyse numérique ingénieurs evolution 52nlp 将“如何计算两个文档的相似度”这个系列整理成了一个pdf文档放到微盘中了,感兴趣的同学可以下载:如何计算两个文档的相似度 *’ run’ maximum’ running’ stemmer’ mit自然语言处理 | 留下评论 如何计算两个文档的相似度全文文档 发表于 stemming’ maxim’ presumably’ case的专家模式和一招鲜吃遍天的数学家模式,那种应用效果更好? 根本上讲,两者的差异源于他们的基本假设不同,规则系统假设我们人类可以穷尽世界的规则,将世界用一个符号系统完整的重构。而机器学习假设我们无法穷尽规则,但是我们可以做一套智能系统,它可以识别规则,而且具有一定的泛化能力,它也许不完美,但是足够实用,可以让我们一劳永逸,既然人类可以有这样一套智能系统,机器为什么不能有? 博主回复 case。那么用规则系统做nlp就需要语言学家,做大数据就需要相关领域的销售专家,这增加了系统实施的难度。而机器学习,对于nlp也好,大数据也好,图像识别也好,需要的都是数学家,理想状态下是一个模型打天下,当然这是理想,现在远远做不到。那么,case :总体说的不错。不过,生成机制也算是老生常谈了。机器学习把语义抽取过程当作黑匣子,规则系统试图走进去一步一步推理。可以溯源到经验主义和理性主义的世界观上去。 最后一段疑似隐含了偏见。规则系统从来没有假设人类可以穷尽世界。最多是可以穷尽或者逼近一个子领域。根本不需要一个符号系统完整地重构世界才可以构建有用的规则系统。最后说到“一劳永逸”的理想,已经进入ai科幻世界了,不足论也。 发表在 让我们调用这个接口来处理上面的课程数据 presum’ stemmed’ 2013年06月10号 然后过滤这些标点符号: 更进一步,我们对这些英文单词词干化(stemming %’ $’ @’ ,nltk提供了好几个相关工具接口可供选择,具体参考这个页面 http stemmer等知名的英文stemmer。这里我们使用lancasterstemmer lancaster porter stemmer 可选的工具包括lancaster file coursera n’ kucera permitted nredistribution copyright holder francis nby tagged np-tl nenglish digital computers permission ndistributed rhode island nprovidence university linguistics nrevised revised icame bcm uib nhttp amplified american jj-tl xa9rique analyse xa9nieurs evolution coding humankind genes 注意其中很多标点符号和单词是没有分离的,所以我们引入nltk的word tokenize函数,并处理相应的数据: genetics general playing applications 2、引入nltk ntlk是著名的python自然语言处理工具包,但是主要针对的是英文处理,不过课程图谱目前处理的课程数据主要是英文,因此也足够了。nltk配套有文档,有语料库,有书籍,甚至国内有同学无私的翻译了这本书 present-day standard edited 1161192 现在我们就来处理刚才的课程数据,如果按此前的方法仅仅对文档的单词小写化的话,我们将得到如下的结果: vbd readme 这个时候会弹出一个图形界面,会显示两份数据供你下载,分别是all-corpora和book,最好都选定下载了,这个过程需要一段时间,语料下载完毕后,nltk在你的电脑上才真正达到可用的状态,可以测试一下布朗语料库: linux和windows下安装nltk:http 用python进行自然语言处理,有时候不得不感慨:做英文自然语言处理的同学真幸福。 首先仍然是安装nltk,在nltk的主页详细介绍了如何在mac ,最主要的还是要先装好依赖numpy和pyyaml,其他没什么问题。安装nltk完毕,可以import nltk测试一下,如果没有问题,还有一件非常重要的工作要做,下载nltk官方提供的相关语料: download 是“隐式”的黑盒。那么,我们是否需要知道规则?知道规则对系统效率有提升吗? 同理,在应用层面。规则系统强调的case case… dicionary allocation learning 现在我们就可以通过lsi模型将这门课程映射到10个topic主题模型空间上,然后和其他课程计算相似度: corpus文件的第211行,也就是: features 基于lsi模型的课程索引建立完毕,我们以andrew ng教授的机器学习公开课为例,这门课程在我们的coursera memory c,与30年前的工程师使用汇编语言的对比一样,本质是一样的编程,只是层次不同罢了。在为nlp特制的“高级”语言和平台上,计算语言学家可以不用为 development 取按相似度排序的前10门课程: platform)不同而已,系统设计和开发的测重点不同而已。这就好比现代的工程师用所谓高级语言 java 或者 等非语言学的工程细节所羁绊,一般也不用为代码的优化和效率而烦扰,他们的注意力更多地放在面对自然语言的种种复杂现象,怎样设计语言处理的架构和流程,怎样突破规则系统的框架与其他语言处理包括机器学习进行协调,怎样平衡语言条件的宽窄,怎样与qa(质量检测)协调确保系统开发的健康,怎样保证语言学家团队编制规则的操作规范以确保系统的可持续性(data features 2013-06-07 learning)。有监督的学习能开发知识系统成为应用的前提是必须有大量的手工标注的数据,作为学习的源泉。机器学习的算法是自动的(算法的创新、调试和实现当然还是手工的,可这种手工被认为是最高级劳动,=),而语言学家的手工规则甚至系统架构则被认为是资料员的低端工作,损人与自夸,无出其右),但是大量的数据标注则是手工的(本来就有现成标注的不算,那是例外)。因此,机器学习同样面临知识瓶颈,不过是知识瓶颈的表现从需要少量的知识工程师变成需要大量的低端劳动者(懂得语言及其任务的大学生或中学生即可胜任)。马克思说金钱是一般等价物,知识瓶颈的问题于是转化为高级劳动低级劳动的开销和转换问题:雇佣一个知识工程师的代价大,还是雇佣10个大学生的代价大?虽然这个问题根据不同项目不同地区等因素答案会有不同,但所谓机器学习没有知识瓶颈的神话可以休矣。 另外,知识瓶颈的对比问题不仅仅是针对一个应用而言,而应该放在多应用的可移植性上来考察。我们知道绝大多数nlp应用的技术支持都源于从自然语言做特定的信息抽取。由于机器学习把信息抽取看成一个直接对应输入和输出的黑匣子,所以一旦改变信息抽取目标和应用方向,以前的人工标注就废弃了,作为知识瓶颈的标注工作必须完全重来。可是规则系统不同,它可以设计成一个规则层级体系,独立于领域和应用方向的语言学规则组件(parsers)以及在语言学之上的针对领域和应用的信息抽取规则子系统。结果是,在转移应用目标时候,底层的语言学组件基本保持不变,而只需要重新编写不同的信息抽取规则而已。实践证明,对于规则系统,真正的知识瓶颈在语言学组件的构建上,而信息抽取本身花费不多。这是因为前者需要应对自然语言变化多端的表达方式,把它逻辑化,而后者是建立在逻辑形式(logical 这里我们拍脑门决定训练topic数量为10的lsi模型: form)上的规则,一条等价于底层规则的几百上千条。因此,从多应用的角度看,机器学习的知识成本最终会远远大于规则系统。 本文引用地址:http blog sciencenet learning),机器学习中可资开发系统的方法是有监督的学习(supervised 规则系统的大规模成功也一样召唤语言工程大师。 关于知识瓶颈的偏见,必须在对比中评估。规则系统需要语言学家手工开发的资源投入,机器学习也同样需要资源的投入,不过是资源方式不同而已。真实的情况是这样的:自然语言处理需要语言学知识,把这些知识形式化是每个nlp系统的题中应有之义,机器学习绝不会自动免疫,无需知识的形式化。具体说,机器学习的知识瓶颈在于data,大量的大量的data。排除研究性强实用性弱的无监督学习(unsupervised testing,regression driven,unit testing,code review,maintenability,baselines,等等等等),怎样根据语言开发需求对于现有形式框架的限制提出扩展要求,以及怎样保证复杂系统的鲁棒性等等。一个领头的计算语言学家就是一个系统的架构师,系统的成败绝不仅仅在于语言规则的编制及其堆积,更多的决定于系统架构的合理性。不要把村干部不当干部,也不要把知识工程师(计算语言学家)不当工程师。很多人由于根深蒂固的偏见,把计算语言学家一律当作资料员,殊不知能够在nlp规则系统中统领项目的计算语言学家,绝不是只要知道某个语言的syntax这些皮毛就可以胜任的。明星工程师是软件企业的灵魂,nlp topics=10 第一门课程是它自己 learning 第二门课是coursera上另一位大牛pedro nltk中文信息处理 ndepartment learning公开课 operations 的投入,也是出不来 master)。这些码工谁不靠手工编制代码作为立足之本呢?没听说一位明星工程师因为编制代码的手工性质而被贬损。同是软件工程,为什么计算语言学家手工编制nlp代码与其他工程师手工编制软件代码遭遇如此不同的对待。难道nlp应用比其他应用简单?恰恰相反,自然语言的很多应用比起大多数应用(譬如图形软件、字处理软件等等)更加复杂和艰难。解释这种不同遭遇的唯一理由就是,作为大环境的软件领域没有nlp主流的小环境里面那么多的傲慢和偏见。软件领域的大牛们还没有狂妄到以为可以靠自动编程取代手工编程。他们在手工编程的基础建设(编程架构和开发环境)上下功夫,而不是把希望寄托在自动编程的万能上。也许在未来的某一天,一些简单的应用可以用代码自动化来实现,但是复杂任务的全自动化从目前来看是遥遥无期的。不管从什么标准来看,非浅层的自然语言分析和理解都是复杂任务的一种。因此,机器学习作为自动编程的一个体现是几乎不可能取代手工代码的。规则系统的nlp应用价值会长期存在。 自动是一个动听的词汇。如果一切人工智能都是自动学习的,前景该有多么美妙。机器学习因为与自动连接在一起,显得那么高高在上,让人仰视。它承载着人类对未来世界的幻想。这一切理应激励自动学习专家不断创新,而绝不该成为其傲慢和偏见的理由。 在下面具体论述所谓规则系统的知识瓶颈软肋之前,值得一提的是,所谓自动是指系统的开发,不要混淆为系统的应用。在应用层面,无论是机器学习出来的系统,还是手工编制的系统,都是全自动地服务用户的,这是软件应用的性质决定的。这虽然是显而易见的事实,可确实有人被误导,一听说手工编制,就引申为基于规则系统的应用也是手工的,或者半自动的。 手工编制nlp系统是不是规则系统的知识瓶颈?毋庸讳言,确实如此。这个瓶颈体现在系统开发的周期上。但是,这个瓶颈是几乎所有大型软件工程项目所共有的,是理所当然的资源costs,不独为 python自然语言处理 概率图模型 概率图模型公开课 机器学习公开课 机器学习 布朗语料库 如何计算两个文档的相似度三 发表在 life probabilistic graphical koller教授的概率图模型公开课: learning 第三门课是coursera的另一位创始人,同样是大牛的daphne domingos机器学习公开课 models 第四门课是另一位超级大牛geoffrey hinton的神经网络公开课,有同学评价是deep learning 感觉效果还不错,如果觉得有趣的话,也可以动手试试。 好了,这个系列就到此为止了,原计划写一下在英文维基百科全量数据上的实验,因为课程图谱目前暂时不需要,所以就到此为止,感兴趣的同学可以直接阅读gensim上的相关文档,非常详细。之后我可能更关注将nltk应用到中文信息处理上,欢迎关注。 注:原创文章,转载请注明出处“我爱自然语言处理”:www 的软件产品的。当然需要多少开发资源在很大程度上决定于开发人员(包括作为知识工程师的计算语言学家)的经验和质量。譬如让立委来开发中文系统(或英文、法文系统),就比找年轻语言学家快得多,以一当十绝不是自夸。其实,即便是10个新手,也未见得能做出立委的系统来,因为自然语言里面所牵涉到问题的复杂度不是拼时间就可以完成的。 计算语言学家编制规则系统与软件工程师编写程序没有本质不同。不过是所用的语言、形式框架和开发平台(language,formalism networks neural learning的必修课。 blog-362400-701815 frequencies 2013-06-07 enrol expert commun learn demonst envid infrastruct shar collab facilit profess stud expery video aiman  我爱自然语言处理 case” 是“显式”的,而机器学习的” interact sery alphabet 39 规则系统和机器学习的本质区别在于“规则的生成机制”,而不是“是否hand-crafted”,其实两者都需要hand-crafted的,不少机器学习算法还存在经验参数,且应用范围有限制。 不同点是,前者的规则是人工方式确定,对于不同的case可能需要不同的实现算法或规则,修改一个规则不影响其它规则的运行;后者以算法自动生成(识别)“规则”(分类器),也就是说后者是工作在规则的规则上,比前者多了一层抽象,大大减少了工作量,改一下算法,所有的规则都变了。也就是说规则方式的” techn persuad vary introduc 2013-6-22 在我们引入gensim之前,还有一件事要做,去掉在整个语料库中出现次数为1的低频词,测试了一下,不去掉的话对效果有些影响: parsers,不比任何宾州树库训练出来的差。 在句法分析这一块,机器学习吃亏太多了,因为他们除了只此一家的宾州森林,连个其他选项都没有。 删除 计算机专家对语言学家说:“不能给个好用的归纳全的知识库吗,为什么总是打补丁,没完没了,还总出笑话”,语言学家回答说:语言学还真不这么简单,这个还就真拿不出!” built 语言学家认为计算机学家不懂语言学。 尽管如此,我认为,随着研究的深入,相互了解的加深,二者只有自然融合才能渐入佳境,而不可强求。只有到了对语言处理层次的高要求时,比如文本理解阶段,才会使语言学的比重逐渐加大,而对语言处理层次需求是人类发展的必然,谁也无法阻挡,所以语言学家不必为此时情景暗伤。就像早期的关键词检索,根本还用不上句法知识。而现在都在奔语义理解和自动问答,句法知识想回避都难。 删除 adding 08 晕了,我是说您的观点正确 博主回复 计算机学家认为语言学家不懂计算机。 total 23 期待李老师的下一讲-驳偏之二。至于“计算语言学的领域一直在排挤语言学”,的确,不是有“统计自然语言处理的某几个百分点提高,是通过解雇了几个语言学家而提高的”吗 2013-6-24 ,呵呵。我认为,机器处理自然语言并不是仅一个统计就能简单搞定的。语言学家和计算机专家配合不好,是有很多方面原因。举个我听到的例子,语言学工作者对计算机专家说:“这个情况机器怎么就不能学习了,机器应该可学习到的呀!”,计算机专家回答说 机器现在还没这么智能,这么抽象的东西暂时还学不了”– positions :晕了,我没看出来,:) 删除 44 我同意aiman 04 太对了,没有宾州树库,句法分析怎么能上90% 博主回复 :谢谢,您说的三点都很深入到位,我有同感。 至于语言学人才断层问题,我以前提过,这是nlp大环境造成的。 教授要吃饭,要养学生,学生将来也要有立足的饭碗,就必须要发论文,拿经费,就非走主流路线不可,哪怕是跟着别人后面赶。其结果就是语言学和语言学人才荒芜了。世界上还很少有这样的怪现象:号称计算语言学的领域一直在排挤语言学。 删除 3、引入gensim 有了上述的预处理,我们就可以引入gensim,并快速的做课程相似度的实验了。以下会快速的过一遍流程,具体的可以参考上一节的详细描述。 :这是从何谈起?我们没用宾州树库,也做出了英语和汉语的高精度而且鲁棒的 count 机器学习,面对的问题,对于复杂推理性问题的求解,比如文本的篇章理解,应该怎么下手?而不能总停留在识别处理这个水平上。 博主回复 机器学习也许不完美,但是足够实用,可以让我们一劳永逸,既然人类可以有这样一套智能系统,机器为什么不能有? 若能达到真正实用的地步,甚至比人类规则系统还好的话,人类自然不傻,怎能不去用。关键是,机器学习的这种不完美一定是在某些方面逊于人类规则系统,所以规则系统才有了存在的价值。 至少目前看来还没有到达谁取代谁,也没看出谁依靠谁来,局部战役有些战绩并不说明整个战事的最终结果。彼此都需要改进,都需要进步,相融合发展又有何不可。 规则系统,面对问题当语言资源超过专门的语言学家总结的规模的上限时,下一步怎么走? “我们是否需要知道规则?知道规则对系统效率有提升吗?” 对于规则系统,必须是显式表示,因为人类专家看不见,自然就不能去对那些规则们进行“拿捏”了。而对于机器学习而言,显不显式表示无所谓,只要能用起来就行。显式的那些东西,若是给人类参考,供修改的话那还是有必要;若是只是为了直接使用,就没必要显式。一般来说,机器学习出来的那些规则,与人类专家总结的规则的格式内容,差别很大。人类专家的结果尽量是高概括的,高覆盖率的。机器学习的那些则一般都是比较细碎的,具体性的,覆盖度是通过泛化实现的,这泛化的前提是数据足够可用的情况下适度泛化,在问题隐含的规律特别复杂而数据又偏少的情况下,泛化太强也加大了错误率,也没什么意义。 规则系统中规则是必须人类知道,不知道也无法进行下去。而机器学习中的规则,人类知道与不知道那些规则无所谓,甚至人也知道不起,可能量大又琐碎。 因此,我认为知不知道规则与系统效率是无关的。系统效率只与规则质量有关,一般来说,规则系统由于高概括,单从运行效率来讲,效率是高的,但是建造规则系统效率是低的。这也只是一般来说,因其也与运行算法有关,比如像专家系统那样的,不采用rete算法的话,运行效率也并不高。 2 的“规则系统和机器学习的本质区别在于‘规则的生成机制’”,其实“规则系统”和“机器学习”这种分类也不是很合理,因为它们本质上都某种规则下运行的,只是当初学科起名的时候,没考虑到现今这样情景,就像计算机千年问题一样,只不过ai领域的人心中都能够清楚是怎么一回事,我也不知怎样能在分类上显式表明区别,暂且如是用吧。 aiman抛出的三个问题,我觉得很值得引发讨论。 1 “case case的专家模式和一招鲜吃遍天的数学家模式,那种应用效果更好?” 这个应该是取决于要解决问题的类型。如果有的问题,规则总是那么少量,或很少变化。专家能够全部总结出来。同时,机器也能从给定的数据集中全部学习到所有的规则,那么两个效果应该是一样的。如果规则还是那么少量,专家能总结很好,但是机器学习所需要的现有数据集很难覆盖全面,那么规则系统胜出。如果规则复杂,不断变化,数据量极其庞大,人类总结很难做到高屋建瓴,常感“数据海量”之叹,而此问题的机器学习的数据轻易获取,高性能机器又可以很快抽取规则的话,且要比人类已有总结的那些规则覆盖量大的话,机器学习自然胜出。 但是,落到自然语言处理这样的问题上,规则系统坦诚来,说不能说总结得很好,不然就没有机器学习什么事了。而机器学习,在现有大规模高质量的标注集上是否能有效覆盖也难说,因此也就有了挡箭牌,一旦机器学习的结果不理想,都可以赖到标注数据集不充分上来。其实,二者都逃脱不了手工的问题(非监督学习的水平现还差太多,手工是必然的)。这也成了“语言专家总结语言规律 标注人标注语料”问题中在工作量、工作难度、最终效果、后期维护、领域适应等多维变量中求最优的问题。当然,不可回避的是,机器学习算法和模型质量是否有效也是一个制约因素。 就目前看来,哪种模式更好,还难有确定结论,同时也分是在nlp的什么分支上。本质上彼此都有各自的软肋。若二者抱团发展也许更好,不过首先要解决好性格不合的问题。 另外,说一点,像李老师这样的既能建高楼(架构),又能给空房引来住户(语言知识),同时又有协调住户矛盾(知识冲突)的经验的“资深建筑师”确实不多,也确有独门绝技。 但这不具备大规模生产性,能否发展成容易传授性的,好继承下来的,更多些“自动”,是个值得探讨的问题。 3 神经网络公开课

Highlighted Content Analysis

Cloud of Keywords from all content
High relevance
 

Medium relevance
 

Low relevance
 

我爱自然语言处理

Very Low relevance
 
我爱自然语言处理 如何计算两个文档的相似度(三) 人工智能与机器翻译研讨会 如何计算两个文档的相似度(二) 如何计算两个文档的相似度(一) 2013年第五届中国翻译职业交流大会—会议通知及报名须知 如何计算两个文档的相似度全文文档 【nlp主流最大的偏见,规则系统的手工性】 love natural language processing 【科普随笔:nlp主流的傲慢与偏见】