为您找到相关结果 122 个:“ lucene”

word v1.3 发布,Java 分布式中文分词组件_J2SE_Java

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。 word1.3新增了大量功能,如:词频统计、refine、词性标注、同义标注、反义标注、拼音标注等,同时,新增了10种文本相似度算法,还新增了两种分词算法:最大Ngram分值算法和最少词数算法,分词速度也有了很大提升,还有很多其他的大大小小的优化,最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。 更多细节请查看:word分词主页 word分词的分词效果怎么样?请

Java 爬虫工程师技能列表_J2SE_Java

1,java 2,熟悉js, ajax 3,网页去重,找到网站特点 4,分布式 5,多线程 6,一种关系型数据库mysql/oraclelserver 7,正则表达式、css selector, xpath 8,DNS cache 9,TCP/IP/Http协议 tp2.010,web登录协议 10, SSO,OAuth原理 11,反爬策略 12,熟悉httpClient 13, 熟悉一些提取工具 14,搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/ 15,熟悉XML、JSON、SOAP协议; 16,mongodb, redis, hbase, hadoop 17,文本分析,机器学习、数据挖掘、自然语言处理 18,完成网页,微博,微信,贴吧,论坛等数据信息的精准抽取 19,RPC协议 20,netty,NIO 21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS 22,代理部署方案:http/socks 23,nginx, squid,jetty 24,破解ios 25,验证码,ocr 掌

学习笔记 Hadoop组成详解

本节和大家学习一下Hadoop方面的知识,内容主要有Hadoop概念介绍和Hadoop组成,希望通过本节的学习大家对Hadoop有初步的了解,下面让我们一起来学习Hadoop吧。 Hadoop学习笔记 这里先大致介绍一下Hadoop,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。 首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,还有数据抓取的功能。在nutch0.8.0版本之前,Hadoop还属于Nutch的一部分,而从nutch0.8.0开始,将其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目,这就是Hadoop,而nutch0.8.0版本较之以前的Nutch在架构上有了根本性的变化,那就是完全构建在Hadoop的基础之上了。在Hadoop中实现了Google的GFS和

Hadoop简介:HDFS和MapReduce的实现

本节向大家描述一下Hadoop简介,本节主要介绍Hadoop中两个重要的组成部分HDFS和MapReduce,希望通过本节的介绍大家对Hadoop有初步的认识。 Hadoop简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。 谈到Hadoop就不得不提到Lucene和Nutch。首先,Luce

技术分享:使用Hadoop进行分布式并行编程

在学习Hadoop的过程中,你可能会遇到用Hadoop进行分布式并行编程的问题,本节就向大家介绍一下用Hadoop进行分布式并行编程的方法,希望通过本节的介绍大家能够对Hadoop有新的认识。 用Hadoop进行分布式并行编程 Hadoop简介 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统HDFS(HadoopDistributedFileSystem)。 也许到目前为止,Hadoop还不是那么广为人知,其最新的版本号也仅仅是0.16,距离1.0似乎都还有很长的一段距离,但提及Hadoop一脉相承的另外两个开源项目Nutch和Lucene(三者的创始人都是DougCutting),那绝对是大名鼎鼎。Lucene是一个用Java开发的开源高性能全文检索工具包,它不是一个完整的应用程序,而是一套简单易用的API。在全世界范围内,已有无数的软件系统,Web网站基于Lucene实现了全文检索功能,后来DougCutting又开创了第一个开源的Web搜索引擎(http://ww

地理空间距离计算优化_IOS_移动开发

1.地理空间距离计算面临的挑战 打开美团app,不管是筛选团购还是筛选商家,默认的排序项都是“离我最近”或者“智能排序”(如下图所示)。 不管是“离我最近”还是“智能排序”,都涉及到计算用户位置与各个团购单子或者商家的距离(注:在智能排序中距离作为一个重要的参数参与排序打分)。以筛选商家为例,北京地区有5~6w个POI(本文将商家称之为POI),当用户进入商家页,请求北京全城+所有品类+离我最近/智能排序时,我们筛选服务需要计算一遍用户位置与北京全城所有POI的距离。 这种大量计算距离的场景十分消耗资源,从测试来看目前5w个点仅计算一遍距离就需要7ms,而到100w的时候就需要140多ms,随着数据的快速增长,筛选服务的性能将会非常堪忧。 如何优化距离的计算,进而提高计算速度、降低cpu使用率已经迫在眉睫。美团移动后台团购组在此方向上进行了些许探索,下文将分为4部分展开:1)地理空间距离计算原理;2)Lucene使用的距离计算公式;3)优化方案;4)实际应用。 2 地理空间距离计算原理 地理空间距离计算方法较多,目前我们使用的可以分为两类:1)球面模型,这种模

Tomcat下部署Solr5.3_Tomcat_Java

http://jingyan.baidu.com/article/d8072ac4625b07ec95cefdbe.html 现在网上关于solr在tomcat部署的文章基本上都是4.x的,但solr升级到5.x后,结构发生了变化,很多文章已经不适用了,这里摸索出5.x在tomcat中的部署方法,以便大家参考 工具/原料 下载 solr 5.3 版本:http://www.apache.org/dyn/closer.lua/lucene/solr/5.3.0 下载 Tomcat(6以上版本),另外可以根据系统下载 32 位或者64位版本:http://tomcat.apache.org/ 方法/步骤 解压 Tomcat 到一个目录,例如 F:\Apache\Tomcat 将 solr 压缩包中 solr-5.3.0/ D:\solr-5.3.0\server\solr-webapp\文件夹下有个webapp文件夹,将之复制到Tomcat\webapps\目录下,并改成solr (名字随意,通过浏览器进行访问solr管理界面时要用到) 将 solr 压缩包中 solr-5

windows下tomcat中部署solr_Tomcat_Java

准备环境: apache-tomcat-7.0.72.zip, solr-4.10.2.zip, java version:1.7.0_60 下载tomcat:http://tomcat.apache.org/ or http://pan.baidu.com/s/1qYAhpik 下载solr:http://lucene.apache.org/solr/ or http://pan.baidu.com/s/1slImI89 ============================================================================== 1、解压tomcat和solr 2、将solr-4.10.2\example\webapps\solr.war这个war包复制到apache-tomcat-7.0.72\webapps下。(删除apache-tomcat-7.0.72\webapps目录下原有的所有文件) 3、在任意盘符下(我这里用E盘),在E盘下新建一个文件夹:solrhome,将solr-4.10.2\

【高并发、大数据企业级源码分享】maven_Springmvc_Mybatis_Shiro_REST_WebService_JMS_Lucene_Bootstrap_大数据_大数据

开发报捷:增加Lucene搜索引擎功能 1. 创建、初始化索引、 统一搜索入口、搜索结果展现--内容、标题高亮、关键词搜索 2. 高级搜索: 高级搜索增加多入口查询(精确查询、模糊查询、前缀查询等),每页显示条数自定义、索引结果数据....

【高并发、大数据、javaWeb源码】maven_Springmvc_Mybatis_Shiro_REST_WebService_JMS_Lucene_Bootstrap_大数据_大数据

开发报捷:增加Lucene搜索引擎功能 1. 创建、初始化索引、 统一搜索入口、搜索结果展现--内容、标题高亮、关键词搜索 2. 高级搜索: 高级搜索增加多入口查询(精确查询、模糊查询、前缀查询等),每页显示条数自定义、索引结果数据....

开源和SaaS产品着手重构数据库

目前,低租金的键/值存储仓库世界正在快速扩张。以下便是其中的一些更突出的新项目清单。 Thrift 这是一种由Facebook.com开发并捐赠给Apache软件项目的工具,实际上它并不是数据库。事实上,它更像是一种将描述数据结构的文件转换为你选择的语言代码的预编译器。这类代码可能需要一些额外的库(Java提供一些将这些数据序列化为输出流的方法),但它加入您自己的代码。该项目包括用于许多主要语言(例如C、Perl、Java、PHP和Python)的程式化程序,旨在接受熟悉某种语言的编程员使用的不同的方言。程序员赋予它纲要(schema),它负责完成其他的工作。 ThruDB 它是将Lucene文本索引库与Thrift和许多用于在云中保存数据的工具连接在一起的连接层。更复杂的选择之一是将在硬盘上本地保存数据来实现快速存储,同时将交易集合复本发送给Amazon S3(简单存储服务)。目前该产品还未正式发布,因此你必须从Subversion库中下载代码。 MongoDB 它为不同节点上的存储接受JSON(JavaScript对象符号)键/值对,然后构建完全文本的值索引

全球著名互联网企业背后的开源力量

lucene lucene是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分文本分析引擎,目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 11. Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据 库驱动网站的速度。Memcached基于一个存储键/值对的HashMap。其守护进程(daemon)是用C写的,但是客户端可以用任何语言来编写, 并通过Memcached协议与守护进程通信。 12. MongoDB MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的数据库。其最大的特点是支持的查询语言非常强大,其语法 有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。 13. Node.js Node.js 是一套

[已解决]win10 x64中启动Elasticsearch时JVM崩溃EXCEPTION_ACCESS_VIOLATION_J2SE_Java

[问题] 运行: elasticsearch-2.1.1.zip 中的: elasticsearch.bat 其中涉及到java(的JVM虚拟机): %JAVA_HOME%\bin\java %JAVA_OPTS% %ES_JAVA_OPTS% %ES_PARAMS% !newparams! -cp %ES_CLASSPATH% org.elasticsearch.bootstrap.Elasticsearch start 但是运行出错,JVM崩溃了。 对应的出错的log文件: hs_err_pid8484.log 内容为: # # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x0000000180035c5d, pid=8484, tid=11

Elasticsearch内存详解_J2SE_Java

lucene file的完整数据结构参见 Apache lucene - Index File Formats 说了这么多,要传达的一个意思就是,ES的data node存储数据并非只是耗费磁盘空间的,为了加速数据的访问,每个segment都有会一些索引数据驻留在heap里。因此segment越多,瓜分掉的heap也越多,并且这部分heap是无法被GC掉的! 理解这点对于监控和管理集群容量很重要,当一个node的segment memory占用过多的时候,就需要考虑删除、归档数据,或者扩容了。 怎么知道segment memory占用情况呢? CAT API可以给出答案。 1. 查看一个索引所有segment的memory占用情况: 2. 查看一个node上所有segment占用的memory总和: 那么有哪些途径减少data node上的segment memory占用呢? 总结起来有三种方法: 1. 删除不用的索引 2. 关闭索引 (文件仍然存在于磁盘,只是释放掉内存)。需要的时候可以重新打开。 3. 定期对不再更新的索引做opti

十八款Hadoop工具帮你驯服大数据_大数据_大数据

lucene/Solr 这是目前惟一的一款用于检索非结构化文本大型块的工具,它同时也是Hadoop的天生合作伙伴。由于利用Java编写,Lucene能够轻松与 Hadoop展开协作,共同创建出一套用于分布式文本管理的大型工具。Lucene负责处理检查任务、Hadoop则负责将查询分布到整个集群当中。 新的Lucene-Hadoop功能正迅速发展成为全新项目。以Katta为例,作为Lucene的衍生版本,它能自动对整个集群进行解析。 Solr则提供集成度更高的动态集群化解决方案,能够解析XML等标准化文件格式。上图所示为Luke,一款用于Lucene浏览的图形用户界面。它现在 还提供插件、用于对Hadoop集群进行浏览检索。 lucene及其多个衍生版本都属于Apache项目的组成部分。 官方网站:www.apache.org Avro 当Hadoop作业需要进行数据共享时,我们完全可以使用任何一种数据库加以实现。但Avro是一套序列化系统,能够利用一定模式将数据整理起来并 加以理解。每一个数据包都附带一种JSON数据结构,用于解释数据的具体解析方式。这

PHP 和 Apache Solr 实现企业搜索_PHP_WEB

lucene 搜索引擎并且在 Apache Software License 许可下以开源形式提供,Solr 是(根据 lucene 站点)“基于 lucene Java? 搜索库、配有 XML/HTTP 和 JSON API、命中结果突出显示、分面组配式搜索、缓存、复制和 Web 管理界面的开源企业搜索服务器”。 其中值得注意的是,大流量的 Web 站点、Netflix、Digg 和 CNET 的 News.com 和 CNET Reviews 使用 Solr 来增强搜索功能。由 Solr 驱动的公共站点的长串列表可以在 Solr 维基中找到(请参阅 参考资料 )。 了解如何使用 Solr 和 PHP 创建搜索汽车零部件数据库的小型应用程序。虽然示例数据库只是包含一些记录,但是它轻轻松松就能包含数百万条记录。本文中使用的所有源代码均可从 下载 部分获得。 安装 Solr 要将 Solr 与 PHP 结合使用,您必须安装 Solr,设计索引,准备 Solr 要索引的数据,载入索引,编写执行查询的 PHP 代码和显示结果。创建可搜索索引所需的大部分工作可以通过命

八款Java开发者必备的工具_J2SE_Java

Java是计算机应用编程语言,被广泛的用于创建Web应用程序、服务器搭建、客户端API开发以及数据库。Java的用例和重要性是巨大的。Java的学习曲线需要程序员处于不断活跃的状态,而今天我们会列出8个最佳Java工具,可以帮助你开发Java应用。 1. SparkJava 这是针对Java开发者的一个新的轻量级以及强大的Web应用框架。Spark拥有简单和直接的方法,你可以使用Spark框架,通过做一些繁琐的XML配置来编码应用。Spark助你更轻松的开发Java Web应用。 2. jClarity jClarity是两个产品的组合,其中illuminate用于性能监控,census则用于收集日志和分析数据,框架是轻量级的,并且非常的紧凑。 3. Clover Clover是一款伟大的用于代码覆盖的工具,该工具有助于编写对应用测试有用的代码。你可以在IDE或持续集成系统中运行Clover。工具优化于提升你的测试速度。 4. jProfiler jProfiler有直观的用户界面,可以帮助你解决性能瓶颈以及理解问题。你可以很容易的确定内存泄漏并

常用的.net开源项目_ASP.NET_.Net

lucene.Net http://lucenenet.apache.org/ lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。 HttpLib http://httplib.codeplex.com/ 一个基于C#语言的http协议的类库,Httplib让异步交互处理数据更容易了。类库的方法包括:上传文件到服务器,获取页面数据等等。 Smart Thread Pool http://www.codeproject.com/Articles/7933/Smart-Thread-Pool 智能线程池,用SmartThreadPool可以简单就实现支持多线程的程序,由线程池来管理线程,可以减少死锁的出现。SmartThreadPool还支持简单的生产者-消费者模式,当不需要对任务进行持久化时,还是很好用的。 DocX https://docx.c

奇舞周刊第142期(2016-01-08)_JavaScript_WEB

lucene 构建的开源、分布式、RESTful 搜索引擎,Github 也在用,赶紧 get 起来。 教程 Elasticsearch 搜索 引擎 Commit message 和 Change log 编写指南 Git 每次提交代码,都要写 Commit message,否则就不允许提交。但这个 message 有格式你了解吗?能生成 Change log,还可关闭 Issue,不熟悉的同学赶紧点开阮一峰老师的新博客了解吧。 教程 Git 工作流 Gulp 系列教程 本系列包括全部开发和构建过程的 14 篇文章。如果你讨厌网上那些 Hello World 式的指南,只描述基础而不展示整个过程,也不深入了解或分享在此过程中学到的东西。那这个系列非常适合你。 教程 Gulp 成长 前端们,2016你有啥目标? 现在是为新年计划新目标的最好时候,我们问了一圈周围的 Web 开发大牛,本文会分享一下他们的新年目标。 Web 成长 李松峰推荐 技术工程师成长之其中一道 从一到十,从刚入门的菜鸟到 Team

Tomcat7.0下部署Solr5.3.0_Tomcat_Java

原文 http://itindex.net/detail/54602-tomcat7.0-solr5.3.0 Tomcat下部署Solr5.3 现在网上关于solr在tomcat部署的文章基本上都是4.x的,但solr升级到5.x后,结构发生了变化,很多文章已经不适用了,这里摸索出5.x在tomcat中的部署方法,以便大家参考 工具/原料 下载 solr 5.3.1 版本:http://www.apache.org/dyn/closer.lua/lucene/solr/5.3.1 下载 Tomcat(6以上版本),另外可以根据系统下载 32 位或者64位版本:http://tomcat.apache.org/ 方法/步骤 解压 Tomcat 到一个目录,例如 F:\Apache\Tomcat 将 solr 压缩包中 solr-5.3.1/ D:\solr-5.3.1\server\solr-webapp\文件夹下有个webapp文件夹,将之复制到Tomcat\webapps\目录下,并改成solr (名字随意,通过浏览器进行访问solr管

2022.11.30 群组聊天