- 浏览: 1633999 次
- 性别:
- 来自: 上海
-
最新评论
-
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用 -
秦时明月黑:
Jetty 服务器架构分析 -
chenghaitao111111:
楼主什么时候把gecko源码分析一下呢,期待
MetaQ技术内幕——源码分析(转) -
qqggcc:
为什么还要写代码啊,如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote) -
yongdi2:
好厉害!求打包代码
Hadoop日志文件分析系统
文章列表
抓取网址的数量上限
您的许可指定了您可以抓取的网址的上限。 不过,如果您的网址尚未达到许可所规定的上限,您可以为想要抓取的网址指定较小的数量上限。 如果您输入的数字小于许可指定的总页数上限,您可以提高系统性能。 在您点击保存时间表和主机负载按钮后,系统最多比您指定数量多抓取约 10% 的内容。 系统抓取的网址要稍微多一些,这样在清除重复后,页数与您指定的上限将非常接近。
请注意: 如果您将此框保留为空,系统将不断抓取网址,直至达到您的许可的上限。
网络服务器主机负载
1、文章页与相关内容页的链接 传奇世界私服 文章页面没有导出链接的权重是最高的,但是这样对于整站权重的提高是不可取的。内页的导出链接一定要遵从相关原则,比如当前的文章内容主要是关于颈椎病的,那么内页的相关文章可以以“专题页面”的形式把颈椎病的早起症状、治疗方法、危害列出来,这些是大类的。其次,针对每个类别,列出相关文章列表,这里用问答的形式展示,比如颈椎痛怎么办?颈椎病应该注意什么?挂什么科等等。这些方面建议大家可以多学习下百度产品的页面设置,仔细看看百度知道的做法,在每个问题页面都聚合了一大批相关问题,分为两类:一类是问题主关键词的聚合列表,一类是相似问题列表。基本上扫光了相关关键词, ...
现在lbs搞的红火的很,基于地图的交友购物交通服务更是多如牛毛,几天就主要对谷歌地图开发一点初步,另外发现mapabc的开发接口很是详细,如果不是
谷歌地图的话,感觉mapabc更容易入门,有很多现成的代码,学习起来更容易,对一些复杂的开发比较适合,例如房地产等开发,不过谷歌地图比较主流,一些简单的
开发还是比较好的使用,官方手册是最好的学习资料http://code.google.com/intl/zh-CN/apis/maps/documentation/javascript/overlays.html,下面就以
Google Maps JavaScript API V3 为例
...
从网站的用户层面,我们根据用户访问的行为特征将用户细分成各种类型,因为用户行为各异,行为统计指标各异,分析的角度各异,所以如果要对用户做细分,可以从很多角度根据各种规则实现各种不同的分类,看到过有些数据分析报告做了各种用户的细分,各种用户行为的分析,再结合其他各种维度,看上去内容绝对足够丰富,但很难理解这些分析结果到底是为了说明什么问题,也许作为一个咨询报告反映当前整体的趋势和用户特征确实合适,但如果真的要让数据分析的结果能够引导我们去做些什么,还是要在做用户细分前确定分析的目的,明确业务层面的需求。既然要做基于用户细分的比较分析,自然是为了明确某些用户分类群体的行为特征与其他用户群体的差异 ...
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
1)遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,a2...a999)中。这样每个小文件的大约为300M。
2)遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为b0,b1,b2...b999)。这样处理后,所有可能相同的url都在对应的小文件(a1, ...
LAMP(Linux-Apache-MySQL-PHP)网站架构是目前国际流行的Web框架,该框架包括:Linux操作系统,Apache网络服务器,MySQL数据库,Perl、PHP或者Python编程语言,所有组成产品均是开源软件,是国际上成熟的架构框架,很多流行的商业应用都是采取这个架构,和Java/J2EE架构相比,LAMP具有Web资源丰富、轻量、快速开发等特点,微软的.NET架构相比,LAMP具有通用、跨平台、高性能、低价格的优势,因此LAMP无论是性能、质量还是价格都是企业搭建网站的首选平台。
对于大流量、大并发量的网站系统架构来说,除了硬件上使用高性能的服务器、负载均衡、 ...
1.概述
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
2.搜索引擎分类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
2.1 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主) ...
智商测试开始:小明和小强都是张老师的学生,张老师的生日是某月某日,2人都不知道张老师的生日。 生日是下列10组中一天: 3月4日3月5日3月8日6月4日6月7日9月1日9月5日12月1日12月2日12月8日 张老师把月份告诉了小明,把日子告诉了小强,张老师问他们知道他的生日是那一天吗? 小明说:如果我不知道的话,小强肯定也不知道。 小强说:本来我也不知道,但是现在我知道了。 小明说:哦,那我也知道了。 请根据以上对话推断出张老师生日是哪一天?
我花了4分钟
3 6 9 ...
网站用户管理的目标是发掘新用户,保留老用户。但仅仅吸引新用户还不错,还需要保持新用户的活跃度,使其能持久地为网站创造价值;而一旦用户的活跃度下降,很可能用户就会渐渐地远离网站,进而流失。所以基于此,我们可以对用户进行又一个细分——活跃用户和流失用户。活跃用户与流失用户活跃用户,这里是相对于“流失用户”的一个概念,是指那些“存活”着的用户,用户会时不时地光顾下网站,同时为网站带来一些价值。同时,我们还需要知道到底有多少用户可能已经抛弃了我们的网站,不可能再为网站创造任何的价值,也就是所谓的流失用户。流失用户,是指那些曾经访问过网站或注册过的用户,但由于对网 ...
一、文章要害字优化: 文章要害字优化包罗要害字局势改变,要害字拆分,要害字规划,要害字密度四个局部。 A:要害字方式改换。优化文章时呈现要害字并不是一切要害字都非要以方针要害字的网站推行方式呈现,通常还会为了使句子更为通畅而选用其他的要害字方式。写文章的时分可以恰当的融入要害字的改变方式也不失为一种优化文章要害字的办法。通常要害字改变的方式包罗同义词、同义词、对同一件事物不一样说法的词等等。也就是让同义词,同义词变成咱们的方针要害字。 B:要害字拆分。这个办法适用于要害字组,也可以视作是要害字局势改换的一种。 拿本文要害字“优化文章”来说,除了以该方式呈现之外,还可以拆分红“优化某一篇文 ...
在了解过世界最大的PHP站点,Facebook的后台技术后,今天我们来了解一个百万级PHP站点的网站架构:Poppen.de。Poppen.de是德国的一个社交网站,相对Facebook、Flickr来说是一个很小的网站,但它有一个很好的架构,融合了很多技术, ...
memcached是怎么工作的? Memcached的神奇来自两阶段哈希(two-stage hash)。Memcached就像一个巨大的、存储了很多<key,value>对的哈希表。通过key,可以存储或查询任意的数据。 客户端可以把数据存储在多台memcached上。当查询数据时,客户端首先参考节点列表计算出key的哈希值(阶段一哈希),进而选中一个节点;客户端将请求发送给选中的节点,然后memcached节点通过一个内部的哈希算法(阶段二哈希),查找真正的数据(item)。 举个列子,假设有3个客户端1, 2, 3,3台memcached A, B, C: Clie ...
诸多大互联网公司的面试都会有这么个问题,有个4G的文件,如何用只有1G内存的机器去计算文件中出现次数做多的数字(假设1行是1个数组,例如QQ号码)。如果这个文件只有4B或者几十兆,那么最简单的办法就是直接读取这个文件后进行分析统计。但是这个是4G的文件,当然也可能是几十G甚至几百G的文件,这就不是直接读取能解决了的。
同样对于如此大的文件,单纯用PHP做是肯定行不通的,我的思路是不管多大文件,首先要切割为多个应用可以承受的小文件,然后批量或者依次分析统计小文件后再把总的结果汇总后统计出符合要求的最终结果。类似于比较流行的MapReduce模型,其核心思想就是“Map(映射)”和“Reduc ...
摘要:
本文主要介绍了利用webservice,session,cookie技术,来进行通用的单点登录系统的分析与设计。具体实现语言为PHP。单点 登录,英文名为Single Sign On,简称为 SSO,是目前企业,网络业务的用户综合处理的重要组成部分。而SSO ...
[php] view plaincopy
//抽象类的定义:
1. get_class — 返回对象的类名
string get_class ([ object $obj ] )
返回对象实例 obj 所属类的名字。如果 obj 不是一个对象则返回 FALSE。
Note: 在 PHP 扩展库中定义的类返回其原始定义的名字。在 PHP 4 中 get_class() 返回用户定义的类名的小写形式,但是在 PHP 5 中将返回类名定义时的名字,如同扩展库中的类名一样
[php]
PHP处理对象部分的内核完全重新开发过,提供更多功能的同时也提高了性能。在以前版本的php中,处理对象和处理基本类型(数字,字符串)的方式是一样的。这种方式的缺陷是:当将对象赋值给一个变量时,或者通过参数传递对象时,对象将被完全拷贝一份。在新的版本里,上述操作将传递引用(可以把引用理解成对象的标识符),而非值。 很多PHP程序员可能甚至没有察觉到老的对象处理方式。事实上,大多数的php应用都可以很好地运行。或者仅仅需要很少的改动。 私有和受保护成员 PHP5引入了私有和受保护成员变量的概念。
说起排序,大多数人在实际项目中很少自己去写一个排序,一般来说,qsort一行话就可以了。我也很少在实际项目中用到过基数排序,最近,写了一篇博客文章叫做: 字符串之全文索引 ,这篇文章的下一篇文章 要用到一个倍增算法。这个倍增算法,就可以非常巧妙的运用基数排序。作为那篇文章的一个铺垫,我专门写了一篇基数排序的文章。这篇文章里面的基数排序肯定是一个变形。
大多数网上 或者 书上的基数排序都是从下面的例子开始的:
排序下面的数列:
73 22 93 43 55 14 28 65 39 81
然后对这些数字,用个位数进行排序:
0
Yii 之初体验
安装Yii
创建应用骨架
应用的工作流程
在这一部分里,我们将讲解怎样建立一个程序的骨架作为着手点。为简单起见,我们假设Web服务器根目录是/wwwroot ,相应的URL是 http://www.example.com/。
非常强烈的推荐下BTrace这个工具,用了后不得不说太强大了,BTrace简单来说,就是能在不改动当前程序的情况下,运行时的去监控Java程序的执行状况,例如可以做到内存状况的监控、方法调用的监控等等,官方网站上有非常多详细的例子,我不说太多,只在下面举一个简单的例子来说明它的作用,BTrace的User Guide请见:http://kenai.com/projects/btrace/pages/UserGuide。对于运行中的Java程序,尤其是出了问题的程序,会需要跟踪其执行状况,例如传入的参数是什么、执行了多少时间,返回的对象是什么,抛出了什么异常,传统的做法只能是把程序改一遍,加上 ...
什么是BTrace?BTrace是SUN Kenai云计算开发平台下的一个开源项目。旨在为java提供安全可靠的动态跟踪分析工具。
Btrace基于动态字节码修改技术(Hotswap)来实现运行时java程序的跟踪和替换。(还记得javarebel不?)Btrace的脚本是用纯java编写的,基于一套官方提供的annotation,使跟踪逻辑实现起来异常简单。
实现原理
用一个简单的公式来表述(从左往右的使用顺序):Sun Attach API + BTrace脚本解析引擎 + Objectweb ASM + JDK6 Instumentation
1,Sun Attach API是 ...
越来越多的人开始意识到,网站即软件,而且是一种新型的软件。
这种"互联网软件"采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(high latency)、高并发等特点。
网站开发,完全可以采用软件开发的模式。但是传统上,软件和网络是两个不同的领域,很少有交集;软件开发主要针对单机环境,网络则主要研究系统之间的通信。互联网的兴起,使得这两个领域开始融合,现在我们必须考虑,如何开发在互联网环境中使用的软件。
RESTful架构,就是目前最流行的一种互联网软件架构。它结构清晰、符合标准、易于理解、扩展方便,所以正得到越来越多网站的采 ...
IPv6 还不能用于生产环境 IPv6 已经开发了20年了,最初的工作是在1992年展开的,叫做IP Next Generation,在1998年被标准化为 IPv6。在2008年在因特网上部署,并且2008年的奥运会服务器就支持 IPv6。在2011年6月8日,几个大型网站开始测试启用 IPv6,叫做Wor
需求:公司拥有一套用户权限系统。我们在新版框架中,我们需要兼容这套用户权限系统。
问题:YII单表方式已经满足不了我们的需求,急切需要对YII进行扩展设计,支持数据库分表设计
解决方法:1、新建protected/sinashowExt/JController.php文件
[php] view plaincopy
我们知道,对于一个大型网站来说,可伸缩性是非常重要的,怎么样在纵向和横向有良好的可伸缩性,就需要在做架构设计的时候考虑到一个分的原则,我想在多个方面说一下怎么分: 首先是横向的分: 1. 大的网站化解为多个小网站:当我们一个网站有多个功能的时候
我们知道,对于一个大型网站来说,可伸缩性是非常重要的,怎么样在纵向和横向有良好的可伸缩性,就需要在做架构设计的时候考虑到一个分的原则,我想在多个方面说一下怎么分:
首先是横向的分:
1. 大的网站化解为多个小网站:当我们一个网站有多个功能的时候,可以考虑把这个网站拆分成几个小模块,每一个模块可以是一个网站,这样的话 ...
BTrace本身也是可以独立运行的程序,作用是在不停止目标程序运行的前提下,通过HotSpot虚拟机的HotSwap技术动态插入原本不存在的调试代码。
比如遇到了我们的程序出问题,而又没有足够的打印语句时,我们一般的方法是不得不停掉服务,然后修改代码,增加打印语句,重新编译重新运行来解决,效率很低。
但有了BTrace,我们需要做的就很简单了,举例说明:
比如环境上运行着一个简单程序:
package com.huawei.main;
import java.io.BufferedReader;
import java.io.InputStreamReader;
publ ...
需求:原网站功能庞大,数据库服务器与数据库众多,有部分数据单库多表都不足以应付业务的快速增长(例如用户系统)。我们便有了分库的需求
问题:YII单DB方式已经满足不了我们的需求,急切需要对YII进行扩展设计,支持数据库分库设计
解决方法:
1、在protected/component目录下面新建一个JUnicomActiveRecord.php文件。代码如下:
[php] view plaincopy
需求:原网站功能庞大,数据库服务器与数据库众多,有部分数据单表已经无法满足我们的需求。我们便有了分表的需求
问题:YII单表方式已经满足不了我们的需求,急切需要对YII进行扩展设计,支持数据库分表设计
解决方法:1、新建protected/sinashowExt/JActiveRecord.php文件
[php] view plaincopy
db组件 'schemaCachingDuration'=>3600, 为什么不起做用?需要开缓存
如何在页面下边显示sql的查询时间在log组件的routes中加入
array('class'=>'CProfileLogRoute','levels'=>'error, warning',)
同时在db组件中加入'enableProfiling'=>true,同时在这种情况下,可以用CDbConnection::getStats() 查看执行了多少个语句,用了多少时间
如何知道某一个程序段运行需要的时间配置好CProfileLogRoute后,在需要测试的 ...
千万级的注册用户,千万级的帖子,nTB级的附件,还有巨大的日访问量,大型网站采用什么系统架构保证性能和稳定性?
首先讨论一下大型网站需要注意和考虑的问题。
数据库海量数据处理:负载量不大的情况下select、del ...