清泪纷纷忆往昔,我亲爱的弟弟毕业于华南师范大学教育系,因病逝世于2012年12月10日,职业教师,生平曾获广东省一等奖(市青少年科技创新大赛)花了不少心血。摘自部分内容:
处理传统分词算法产生的歧义及文本挖掘技术拓展
The Ambiguity Processing in Classic SegmentationAlgorithm and Development in Text MiningTechnology
摘要 随着信息技术的快速发展,人们已经从信息缺乏的时代过渡到了信息极度丰富的时代。文本信息是人们用于信息记载和信息传播的最重要的媒体之一,如何迅速、有效地从大量数据中找到所需的信息已经成为信息服务领域中的重要问题。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。 而分词算法正是中文文本挖掘技术的关键技术。由于汉语的书写习惯,汉语句子中词与词之间的标志是隐含的,英文的单词与单词之间有空格所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。 而这种技术就是本文研究的分词算法。
......
2、设想和展望
针对歧义处理,我们曾经设想过用语法规律处理伪歧义字段的方案。我们当时设想,只需要掌握对歧义字段及歧义字段的前后词语进行分析并得出歧义字段分词结果的词性的方法,再将分析结果与我们整理到的合法的语法结构相比对,即可肯定正确的分词方案,否定错误的分词方案。但是我们在整理语法规律的时候遇到了无法逾越的难题:语法规律过于复杂,难以整理。因此目前我们只能放弃这一设想。但是我们并不完全抛弃这一设想。因为只要有时间,有资料,有精力,我们一定可以将其继续完成。
我们的算法上升空间还很大,还有许多不足之处需要弥补,因此我们不能放弃对未来的设想和无尽的展望。分词算法的理论仍未完善,文本挖掘的需求却在日益增强。因此,提高分词算法的准确率和拓展其文本挖掘能力,是适应时代需求的浩大工程。
......
六、结束语
本算法是我这个高二学生在课余时间完成的,因此在其科学性和逻辑严密性等方面可能有所缺陷。但正所谓愚人千虑必有一得,希望我这样学识尚浅的“愚人”对分词算法的歧义处理千虑的一得能获得各位专家教授的肯定,同时亦希望我的九百九十九失能够得到各位的批评指正。在这里我先对各位提出感谢。
......
他是一个很有才华的人,很感谢这个平台,我们可以建立纪念馆,怀念亲人,有了这个纪念馆,我怀念弟弟的心情也得到释放。