Htaccess toàn tập!

 Những thủ thuật .htaccess bạn nên biết, Tối ưu và bảo mật website bằng file .htaccess, Cách Rewrite URL trong – Tạo đường dẫn thân thiện cho website

1.Những thủ thuật .htaccess bạn nên biết

Dòng lệnh bắt đầu .htaccess

Dòng lệnh .htaccess của bạn nên bắt đầu như sau :

RewriteEngine On RewriteBase /

Dòng lệnh cơ bản redirect 301

Dòng lệnh redirect 301 về cơ bản có dạng như sau trong tệp tin .htaccess :

redirect 301 /old/old.htm http://www.gocit.vn/new.htm

Dòng lệnh trên thông báo chuyển rời tệp tin old.htm trong thư mục old đến vị trí mới tạihttp://www.gocit.vn/new.htm.

Chú ý : Để bắt đầu thì bạn nên redirect 301 các trang trên cũng host, bạn chỉ nên chuyển các trang cũ đến thư mục gốc tương đối. Có thể thực hiện việc này bằng việc loại bỏ “http://www.gocit.vn/” mà chỉ thêm đường dẫn tương đối đến thư mục gốc.

Điểm mạnh nhât của việc thay đổi hàng loạt đường dẫn URL chính là mod_rewrite của Apache, đặc biệt là khi thay đổi tên miền hay thư mục hay số lượng lớn các tập tin. Chúng ta hãy tìm hiểu phần tiếp theo.

Chuyển toàn bộ đến tên miền mới

Nếu bạn quyết định thay đổi tên miền thì các đường dẫn trước đây từ các website bên ngoài, từ máy tìm kiếm và ngay cả các đường dẫn tuyệt đối trên website cũ đều bị thay đổi và khi bạn truy cập, các địa chỉ trên sẽ trỏ bạn đến trang báo lỗi 404 : trang không tìm thấy.

Vì thế nếu bạn thay đổi tên miền thì đừng để mất các liên kết quí báu và người dùng tiềm năng từ máy tìm kiếm, hãy redirect các liên kết cũ tới tên miền mới :

Options +FollowSymLinks

RewriteEngine on

RewriteRule (.*) http://www.gocit.vn/$1 [R=301,L]

Hãy thay đổi http://www.gocit.vn bằng tên miền mới của bạn.

Redirect toàn bộ trang trong một thư mục đến mọt trang mới

Giả sử như bạn không còn sử dụng thư mục “thuthuatseo” nữa và muốn chuyển tất cả các trang trong thư mục này đến trang “seoblog.php” thì hãy thêm dòng lệnh sau vào tệp tin .htaccess nằm tại thư mục gốc :

RewriteRule ^thuthuatseo(.*)$ /seoblog.php [L,R=301]

Chuyển các trang động tới một trang mới

Để chuyến trang web động page.php?id=n (với n là giá trị biến) tới một trang tĩnh mới new-page.htmlthì bạn có thể làm như sau :

RewriteRule ^page.php?id=(.*)$ /new-page.htm [L,R=301]

URL với www hay không www

Đôi khi các bạn bắt gặp việc website sử dụng “www” trong URL (Ví dụ như http://truongchieu.byethost8.com), trong khi có những website lại không dùng “www” này như http://aevn.fr . Nên nhớ rằng “tương ứng” với dịch vụ Web. Các bạn có thể lựa chọn riêng cho mình. Nhưng không thể chọn cả hai vì sẽ gây ra trùng lặp nội dung. sau đây là hai ví dụ, hướng dẫn bạn sủ lý triệt để vấn đề này.

Trường hợp sử dụng www

Options +FollowSymLinks

RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_HOST} !^www\.gocit.\.net$ [NC]

RewriteRule ^(.*)$ http://www.gocit.vn/$1 [R=301,L]

Ngoài ra còn có cách viết sau có thể áp dụng cho tất cả các host và domain, không phải edit lại :

Options +FollowSymLinks

RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_HOST} !^www\.[a-z-]+\.[a-z]{2,6} [NC]

RewriteCond %{HTTP_HOST} ([a-z-]+\.[a-z]{2,6})$     [NC]

RewriteRule ^/(.*)$ http://%1/$1 [R=301,L]

Trường hợp không sử dụng www

Options +FollowSymLinks

RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_HOST} !^aevn\.fr$ [NC]

RewriteRule ^(.*)$ http://aevn.fr/$1 [R=301,L]

Bạn có thể thử lại với các tên miền ví dụ trên mà tớ áp dụng thành công đúng như trích dẫn.

Loại bỏ Query_String

Đôi khi một trang web của bạn có thể hiển thị hai đường dẫn url khác nhưng ( cùng một nội dung) ví dụ seo-tools.php và seo-tools.php?v=mobile. Tương tự như phần trên, điều này sẽ tạp ra nội dung trùng lặp trên website của bạn. Vì vậy bạn có thể loại bỏ các tham biến như sau :

RewriteCond %{THE_REQUEST} ^GET\ /.*\;.*\ HTTP/

RewriteCond %{QUERY_STRING} !^$

RewriteRule .* http://www.gocit.vn%{REQUEST_URI}? [R=301,L]

Ngoài ra nếu như tham biến QUERY_STRING không được gấn giá trị nào hết và URl kết thúc bởi biến rỗng “?”, thì bạn nên loại bỏ chúng, ví dụ “index.php?” :

RewriteEngine On

RewriteBase /

RewriteCond %{QUERY_STRING} .

RewriteRule ^index.php /index.php? [L]

Chuyển phần đuôi mở rộng từ .php sang .html

Việc chuyển .php sang .html có tác dụng khi bạn cần viết lại đường dẫn thân thiện với máy tìm kiếm (Friendly URL for SEO).

RewriteRule ^(.*)\.html$ $1.php [R=301,L]

Chuyển gạch dưới (_) thành gạch ngang(-)

mới chấp nhận việc sử dụng gạch dưới “_” như là ký tự ngăn cách, nhưng trong thực tế người dùng vẫn quen thuộc với dấu gạch ngang “-”. Bản thân vietprotocol cũng ủng hộ dấu gạch ngang vì nó dễ nhìn hơn. Bạn có thể chuyển đổi toàn bộ dấu “_” sang “-” như sau :

Options +FollowSymLinks

RewriteEngine On

RewriteBase /

RewriteRule !\.(html|php)$ - [S=4]

RewriteRule ^([^_]*)_([^_]*)_([^_]*)_([^_]*)_(.*)$ $1-$2-$3-$4-$5 [E=uscor:Yes]

RewriteRule ^([^_]*)_([^_]*)_([^_]*)_(.*)$ $1-$2-$3-$4 [E=uscor:Yes]

RewriteRule ^([^_]*)_([^_]*)_(.*)$ $1-$2-$3 [E=uscor:Yes]

RewriteRule ^([^_]*)_(.*)$ $1-$2 [E=uscor:Yes]

RewriteCond %{ENV:uscor} ^Yes$

RewriteRule (.*) http://www.gocit.vn/$1 [R=301,L]

Redirect WordPress Feeds tới Feedburner

Trong bài viết sử dụng Feedbuner, các bạn có thể sử dụng plugin để quản lý Feeds RSS trên Blog WordPress. Nếu không các bạn có thể sử dụng code htaccess sau :

RewriteEngine On

RewriteBase /

RewriteCond %{REQUEST_URI} ^/feed\.gif$

RewriteRule .* - [L]

RewriteCond %{HTTP_USER_AGENT} !^.*(FeedBurner|FeedValidator) [NC]

RewriteRule ^feed/?.*$ http://feeds.gocit.vn/support [L,R=302]

RewriteCond %{REQUEST_FILENAME} !-f

RewriteCond %{REQUEST_FILENAME} !-d

RewriteRule . /index.php [L]

Đối với người dùng WordPress, các bạn có thể sử dụng plug-in Redirection Permanent Link để chuyến hướng các trang.

Bào vệ ăn cắp tài nguyên và băng thông

Đôi khi các tài liệu, film hay hình ảnh mà bạn tải trên host của mình bị người khác dùng và đăng trên website khác sẽ gây tốn băng thông, bạn có thể hạn chế việc ăn cắp bằng cách chỉ cho phép các tài nguyên trên tiếp cận trên những website bạn cho phép như sau (Nếu không sẽ trả về thư mục /feed/) :

RewriteEngine On

RewriteBase /

RewriteCond %{HTTP_REFERER} !^$

RewriteCond %{HTTP_REFERER} !^http://(www\.)?gocit.vn/.*$ [NC]

RewriteRule \.(gif|jpg|swf|flv|png)$ /feed/ [R=302,L]

Ứng dụng redirect 301 trên các máy chủ khác (ngoài Apache)

IIS redirect

Trong phần quản trị dịch vụ internet, nhấn phải chuột chọn tệp tin và thư mục mà bạn muốn áp dụng redirect; Chon nút “a redirection to a URL”; Chọn trang Redirection; Chon tiếp “The exact url entered above” và “A permanent redirection for this resource”; Chon “Apply”.

ColdFusion Redirect

<.cfheader statuscode="301" statustext="Moved permanently">

<.cfheader name="Location" value="http://www.gocit.vn">

PHP Redirect

ASP Redirec

<%@ Language=VBScript %>

<% Response.Status="301 Moved Permanently" Response.AddHeader "Location","http://www.gocit.vn/" %>

ASP .NET Redirect

JSP (Java) Redirect

<% response.setStatus(301); response.setHeader( “Location”, “http://www.gocit.vn/” ); response.setHeader( “Connection”, “close” ); %>

CGI PERL Redirect

$q = new CGI;

print $q->redirect("http://www.gocit.vn/");

Ruby on Rails Redirect

def old_action headers[“Status”] = “301 Moved Permanently” redirect_to “http://www.gocit.vn/”

2.Tối ưu và bảo mật website bằng file .htaccess

Sử dụng file .htaccess để tối ưu và bảo mật website của bạn hơn: bảo vệ các file quan trọng, giới hạn upload, chuyển hướng 301, trang lỗi tùy chỉnh, tắt liệt kê nội dung thư mục, nén nội dung…

Chức năng: 1. Bảo vệ tệp tin 2. Tắt chữ ký số của web server 3. Giới hạn upload 5. Giới hạn quyền truy cập 6. Trang lỗi tùy chỉnh 7. Tắt liệt kê nội dung thư mục 8. Chuyển hướng 301 9. Chống ăn cắp băng thông như hình ảnh, video (bandwidth) 10. Bật nén PHP compression (bandwidth) 11. Thiết lập canonical url cho website

1.Bước 1, Tạo file .htaccess.

Mở Notepad hoặc phần mềm text editor. Lưu và Đặt tên file htaccess.txt. 2. Nhập nội dung vào file htaccess.txt.

# Bảo vệ file file htaccess

<files .htaccess> order allow,deny deny from all < /files>

#Tắt chữ ký số của web server

# disable the server signature ServerSignature Off

# limit file uploads to 10mb LimitRequestBody 10240000

# Bảo vệ file cấu hình config.php

<files config.php> order allow,deny deny from all < /files>

# Giới hạn truy cập, chặn IP

order allow,deny #deny from 000.000.000.000 allow from all

# Tạo Trang lỗi tùy chỉnh

# custom error docs ErrorDocument 404 /notfound.php ErrorDocument 403 /forbidden.php ErrorDocument 500 /error.php

# Tắt liệt kê nội dung thư mục

Options All -Indexes

# Chuyển hướng 301

Redirect 301 /old.php http://www.gocit.vn/new.php

# Khóa tên miền tham chiếu

RewriteEngine on RewriteCond %{HTTP_REFERER} digg\.com [NC] RewriteRule .* – [F]

Chống ăn cắp băng thông

#disable hotlinking of images with forbidden or custom image option RewriteEngine on RewriteCond %{HTTP_REFERER} !^$ RewriteCond %{HTTP_REFERER} !^http://(www\.)?gocit.vn/.*$ [NC] #RewriteRule \.(gif|jpg)$ – [F] #RewriteRule \.(gif|jpg)$ http://www.gocit.vn/images.gif [R,L] Nén file

# php compression – use with caution < ifmodule mod_php4.c> php_value zlib.output_compression 16386 < /ifmodule>

Tránh trùng lặp nội dung

# set the canonical url RewriteEngine On RewriteCond %{HTTP_HOST} ^yourdomain\.com$ [NC] RewriteRule ^(.*)$ http://www.yourdomain.com/$1 [R=301,L]

# Chống spam comments

RewriteEngine On RewriteCond %{REQUEST_METHOD} POST RewriteCond %{REQUEST_URI} .comments-post\.php* RewriteCond %{HTTP_REFERER} !.*yourdomain.com.* [OR] RewriteCond %{HTTP_USER_AGENT} ^$ RewriteRule (.*) ^http://%{REMOTE_ADDR}/$ [R=301,L]

3. Upload htaccess.txt lên server.

Sử dụng ftp client (sử dụng ASCII mode) và đổi tên file là .htaccess.

CHMOD file .htaccess sang 644.

4. Kiểm tra kết quả.

Apache cung cấp khả năng cấu hình qua những files truy cập siêu văn bản .htaccess., cho phép thay đổi tinh chỉnh của Apache (.conf). Đảm bảo file này được ấn định một mức độ bảo mật nhất định, tránh những truy cập bất hợp pháp từ bên ngoài (xem, sửa, xóa) những tinh chỉnh này.

1.Định nghĩa .htaccess:

Để làm được như vậy, trước tiên bạn cần chmod file .htaccess là 644, về chmod bạn có thể tìm hiểu ở nhiều tài liệu, hoặc google. .htaccess có tác dụng trên thư mục hiện hành (nơi chưa nó) và tất cả các thư mục con. Vì vậy, muốn sử dụng .htacess để quản lí truy cập vào website của mình, đơn giản bạn chỉ việc soạn thảo một file .htaccess, và lưu nó vào thư mục của website.

2.Comment trong .htaccess:

Nếu đã sử dụng và một lần sửa đổi cấu hình Apache thì chắc chắn bạn cũng biết, muốn sử dụng một module nào đó trong những available modules, bạn phải xóa dấu “#” (hash). Dấu “#” này dùng để định nghĩa một đoạn comment trong httpd.conf, và .htaccess cũng vậy. Một ví dụ:

CODE #Enable Rewrite mod << đây là comment, dòng này sẽ không được thực thi #trong .htaccess RewriteEngine on

3.Những chú ý quan trọng:.htaccess là một công cụ rất mạnh trong việc quản lí website. Một lỗi cú pháp nhỏ (thậm chí là một khoản trắng) cũng khiến website của bạn hoạt động không được bình thường như trước. Sau khi áp dụng .htaccess, bạn nên kiểm tra một lượt website của mình xem .htaccess có gây ra lỗi ở phần, trang con nào không? Do vậy trước khi làm việc với .htaccess, bạn nên backup cẩn thận dữ liệu của mình, nếu có trục trặc xảy ra, việc khôi phục trở nên đơn giản.

4.Vấn đề về performance: .htaccess cho phép bạn cấu hình mà không cần động chạm vào cấu hình chính của Apache. Tuy nhiên, về mặt hiệu năng và bảo mật, nếu có thể, bạn nên sử dụng httpd.conf hơn là sử dụng .htaccess. Cụ thể, khi được cấu hình để sử dụng .htaccess, thi Apache sẽ tìm kiếm tất cả những folder có chứa .htaccess để thực thi, và nó sẽ thực thi tất cả những file .htaccess tìm được. Do vậy, sẽ làm website của bạn trở nên ì ạch một cách không cần thiết. Nếu website của bạn là website cá nhân, hoặc ít người truy cập, thì đó là chuyện nhỏ. Nhưng nếu là một website đại chúng (báo điện tử, trang nhạc, film..) thì đây là một vấn đề rất lón. Do vậy .htaccess chỉ có tác dụng trong trường hợp bạn không có quyền cấu hình trên httpd.conf của Apache.

5.Những kí tự đặc biệt sử dụng khi cấu hình .htaccess

# Như đã nói ở trên, # đặt trước một dòng để định nghĩa dòng này là một đoạn comment, dòng này sẽ không được thực thi cho đến khi bạn xóa dấu “#” đi. Khi comment, bạn chỉ nên sử dụng các chữ cái, số, dấu gạch ngang hoặc gạch dưới để tránh những lỗi cú pháp không cần thiết.

[F]

Forbidden: Kí tự này dùng để chỉ định server sẽ trả về client trang lỗi 403 nếu truy cập vào những nơi không được phép

[L] Last rule: kí tự này để ấn định rằng bước trước đã xong thì ngừng và không tiếp tục thực thi lệnh rewrite tiếp theo nữa.

[N]

Next: chỉ thị cho server tiếp tục rewrite cho đến khi tất cả các mục chỉ định được rewrite hoàn toàn.

[G]

Gone: Chỉ định server trả về client trang báo lỗi không tồn tại (no longer exit)

[P]

Proxy: chỉ định server điểu kiển các yêu cầu được ấn định bởi mod_proxy

[C]

Chain: Chỉ định server thực hiện rule hiện hành song song với rule trước đó

[R]

Redirect: chỉ định server đổi hướng request sang một trang khác trong trường hợp trình duyệt gởi yêu cầu duyệt một trang được sửa chữa đường dẫn (rewrite) trước đó.

[NC]

No-case: Chỉ định server match những kí tự tương tự nhau, ví dụ dòng lệnh sau:

CODE RewriteCond %{HTTP_REFERER} !^http://domain.com/.*$ [NC] #Thì referrer là domain.com || Domain.com || DoMain.com…đều được match.

[PT]

Pass Through: có nghĩa là dùng kí tự để buộc “rewrite engine” ấn định bảng giá trị của uri trở thành giá trị của tên files

[OR]

Đây có thể gọi là một toán tử, các biểu thức được nối tiếp nhau bằng toán tử OR, trong đó biểu thức nào đúng, sẽ là quy tắc để lệnh Rewrite áp dụng. Ví dụ:

CODE RewriteBase / RewriteCond %{HTTP_USER_AGENT} ^Anarchie [OR] RewriteCond %{HTTP_USER_AGENT} ^ASPSeek [OR] RewriteCond %{HTTP_USER_AGENT} ^attach [OR] RewriteRule ^.* – [F,L]

Như vậy, mỗi dòng Rewritecond là một biểu thức chỉ định USER_AGENT, nếu bất cứ USER_AGENT nào match, thì RewriteRule sẽ được áp dụng, sau đó ngừng. Vì sao ngừng: Một request chỉ có một USER_AGENT, vì vậy không cần thiết phải quay trở lại kiểm tra các biểu thức còn lại, sẽ làm giảm hiệu năng phục vụ. Lời bàn:như ở trên đã nói, bạn chỉ sử dụng những chức năng này của .htaccess nếu không có quyền cấu hình trên Apache và firewall. Những chức năng lọc và chặn User agents Mod_ và Iptables đều có thể thực hiện được, vì vậy nếu đã có rule cho iptables và Mod_, việc thêm rule trên cho .htaccess là dư thừa, và không cần thiết.

[NE]

No Escape: Chỉ định server xử lí các gói tin trả về mà không dùng kí tự thoát

[NS]

No Subrequest: Chỉ định server bỏ qua thư mục hiện hành nếu request nhắm vào thư mục con.

[QSA]

Append Query String: chỉ định server gắn chuỗi truy vấn vào cuối cùng của URL

[S=x]

Skip: Chỉ định server bỏ qua không xem xét các X rules tiếp theo nữa nếu một rule đã được thực thi.

[T=MIME-type]

MIME-type: Khai báo định dạng files của server

[]

Chỉ định các kí tự đặt đặt trong [] sẽ được match. Cụ thể [xyx] thì các request có mang theo các kí tự x, y hoặc z sẽ được match.

[]+

Tương tự như trên, nhưng trong trường hợp này, nếu ta đặt [xyz]+ thì tất cả các request có mang theo kí tự x, y, z hoặc x’s, y’s. z’s hoặc sự kết hợp của x,y,z với bất kì kí tự nào đều được match. [^]

Ngược lại với [], các kí tự được đặt theo dạng [xyz^] sẽ không được match.

[a-z]

Dấu ‘-‘ đặt giữa 2 kí tự bên trong cặp dấu [] sẽ match tất cả các kí tự nằm trong khoảng từ kí tự đầu đến kí tự cuối. Ví dụ [a-bA-B] sẽ match tất cả các kí tự thường vào in hoa abcd và ABCD.

a{n}

Sẽ chỉ định chính xác n kí tự a được match. Ví dụ a{3} thì 3 kí tự a sẽ được match.

a{n,}

Tương tự như trên, nhưng trong trường hợp này sẽ match các kí tự a từ na trở lên.

a{n,m}

Chỉ định một khoảng chính xác các kí tự (m-n)a sẽ được match.

()

Nhóm các phương thức truyền dữ liệu (method). VD:

CODE RewriteCond %{REQUEST_METHOD} ^(HEAD|TRACE|DELETE|TRACK) [NC,OR] Các request bắt đầu (^) HEAD, TRACE, DELETE hoặc TRACK sẽ được match.

^

Bắt đầu bằng (xem ví dụ ở trên). $

Kết thúc bằng ( .*$: kết thúc bằng bất cứ gì) ?

Thường dùng chung với (), như trong trường hợp test(ti)? thì test hoặc ti sẽ được match.

!

Phủ định. VD: “!string” sẽ match tất cả các kí tự, ngoại trừ string –

Loại đi một chức năng, hoặc một rule đang thực thi nào đó. VD: CODE # không cho xem chỉ mục trong một folder nào đó Options All –Indexes

+

Chỉ định 1 hoặc nhiều kí tự cho trước sẽ được match. Hoặc thêm một chức năng nào đó VD: G+ sẽ match tất cả các kí tự G, Gs, Gx, G..

*

Tất cả đều được match. Ví dụ: CODE RewriteCond %{HTTP_REFERER} !^http://domain.com/.*$

Thì tất cả request files không mở đầu bằng _http://domain.com đều được match.

|

Hoặc. Ví dụ x|y thì hoặc x hoặc y sẽ được match.

\

Kí tự thoát. VD: www\.domainname\.com Chỉ có www được match, chứ không có wwww hoặc wwwww, domainname chứ không có domainnames hoặc domainnamex… -d

Kiểm tra thư mục có tồn tại hay không? -f

Kiểm tra file có tồn tại hay không

-s

Kiểm tra giá trị của file có khác 0 hay không?

6. Mã chuyển hướng trang báo lỗi

– 401 – Authorization Required : Lỗi chưa được xác thực user và – 400 – Bad request : Lỗi truy cập không hợp lệ, do server không chấp nhận request, hoặc request thiếu một số yêu cầu nào đó. – 403 – Forbidden : Lỗi truy cập vào trang bị cấm – 500 – Internal Server Error : Lỗi do server – 404 – Wrong page : Lỗi truy cập vào trang không tồn tại -301 – Moved Permanently: 302 – Moved Temporarily: Lỗi truy cập vào trang đã bị di chuyển.

3. Cách Rewrite URL trong PHP – Tạo đường dẫn thân thiện cho website

Nhiều bạn thiết kế website hỏi làm sao tạo được các đường dẫn đẹp (URL Rewrite). Trước tiên chúng ta tìm hiểu cơ chế rewite: Rewrite Engine là một phần dịch vụ của Webserver được dùng để thay đổi URL(đường dẫn trên trình duyệt) sang một dạng khác với nhiều mục đích khác nhau.

Kỹ thuật được nói đến là URL rewriting và nó đem lại những tiện lợi sau:- Làm cho URL trở nên thân thiện với người dùng cũng như dễ dàng với các Search Engine (bộ máy tìm kiếm)- Tránh lộ các đường link quan trọng- Tránh lộ các công việc bên trong trước người dùng

Bản chất của việc rewrite này các bạn có thể hình dung như sau: khi bạn gõ 1 đường link lên trình duyệt như sau: http://vidu.com/news/2007/13/01 thì đây là đường dẫn ảo, và khi request đến Webserver nó sẽ đổi lại thành đường dẫn thật như sau: http://vidu.com/index.php?mod=news&y…ay=13&month=01 << có thể là như thế này vì có nhiều cách rewrite.

Đối với Server Apache: để thực hiện được URL Rewriting bạn làm các bước sau:

1. Kích hoạt mod mod_rewrite có sẵn trong Apache bẳng cách sửa trong file httpd.conf, bạn Find đến dòng chưa rewrite_module rồi bỏ dấu # (nếu có) ở đầu đi. Sau đó restart Apache. Nếu bạn dùng các host trên internet thì có thể đã có sẵn rồi.

2. Tạo 1 file .htacces có nội dung như sau: Đầu tiên bật Rewrite Engine:

PHP Code:

RewriteEngine on Options +FollowSymlinks RewriteBase /

Tiếp đến là viết cú pháp RewriteRule:

PHP Code:

RewriteRule ^Virtual_Path Real_Path 

Ví dụ:

PHP Code:

RewriteRule ^topic_([0-9]*).html index.php?topic=$1 

ví dụ: topic_1.html thành index.php?topic=1

PHP Code:

RewriteRule ^article/([0-9]*)/page/([0-9]*) index.php?article=$1&page=$2 

ví dụ: article/1/page/2 thành index.php?article=1&page=2

Cú pháp để viết các Rule này giống như cách viết của biểu thức chính quy Regular Expression. ví dụ như sau:

(.*) nhận tất cả các giá trị. ([0-9]*) chỉ nhận các giá trị là số, từ 0-9. ([a-zA-Z]*) chỉ nhận các giá trị là chữ cái, từ a-z và A-Z.

3. Sau khi tạo được file htaccess bạn copy nó vào thư mục gốc của web của bạn là có thể chạy được.

Đối với Server IIS: các bạn download gói cần thiết về để có thể thực hiện được việc rewrite, các bạn có thể download từ 1 số trang sau:

http://www.micronovae.com/ModRewrite/ModRewrite.html http://www.qwerksoft.com/products/iisrewrite/ http://www.isapirewrite.com/ http://www.motobit.com/help/url-repl…od-rewrite.asp

Ngoài việc sử dụng mod url_rewrite như trên thì nếu host của bạn ko có kích hoạt mod này hoặc bạn ko có quyền để cấu hình nó như trên. Để đơn giản các bạn có thể tạo ra những cách khác nhau để làm cho URL trở nên đẹp và thân thiện hơn. Dưới đây là 1 số cách khác nhau.

c1 dạng như sau: http://vidu.com/index.php/news/2007/13/01 << Trông rất giống với kiểu rewrite ở trên nhưng nó khác ở chỗ nó là đường dẫn thật còn url rewrite là đường dẫn ảo. Đường dân này hiểu như là 1 request đến file index.php với Query String (Xâu truy vấn) là /news/2007/13/01, các bạn tách xâu này ra rồi sử dụng theo mục đích của mình. Cách này đang được trang web 24h.com.vn sử dụng.

c2 dạng như sau: http://vidu.com/index.php/news_2007_13_01.html << Gần giống cách 1 ở trên nhưng đường dẫn khác thân thiện với đuôi html, dễ dàng cho các search engine (máy tìm kiếm như Google, Yahoo) tìm kiếm nội dung.

c3 có thể viết như sau: http://vidu.com/index.php?q=news/2007/13/01 << cũng gần giống cách 1 nhưng nó rõ ràng hơn, nó được dùng trong FrameWork Drupal của PHP.

Và có thể có nhiều cách khác nhau các bạn có thể tự nghĩ ra. Hoặc có thể dùng cách mã hoá xâu truy vấn chẳng hạn.

Advertisements

[SEO] Thủ thuật với .htaccess cần biết

File .htaccess(hypertext access) của apache là một công cụ cực kỳ hữu dụng.

File .htaccess thường được tìm thấy trong thư mục root của website, bạn có thể dễ dàng sửa chữa nó bằng bất kỳ text editor nào. Bạn nên sao lưu lại file .htaccess của mình trước khi thử nghiệm các cách hack dưới đây.

1. Ngăn chặn hotlink

Nhiều người copy ảnh từ server của bạn và đưa lên trang web của họ. Thêm vào .htaccess đoạn mã dưới đây sẽ giúp bạn ngăn chặn ảnh hiển thị trên website khác

Sử dụng Nginx và memcached để tăng tốc Apache trên Debian Lenny

Trong bài viết này, tôi giới thiệu cách thức cài đặt Nginx kết hợp với memcached trên Debian “lenny” 5.0 nhằm tăng hiệu năng phục vụ của web server mà ở đây là Apache 2.2. Bài viết này là tổng hợp từ nhiều nguồn khác nhau trên Internet và là bản ghi chép của tôi trong quá trình nâng cấp một web server thực tế có lượng truy cập lớn.

1. Giới thiệu
Gần đây, web server mà tôi quản lí (phi vụ lợi) có lượng truy cập tăng đột biến mà không phải vì bị tấn công. Tải (load) của server những lúc cao điểm thường lên ~40 trong khi chỉ có 8 cores phục vụ với 8GB RAM. Công việc tối ưu bắt đầu.
Chúng tôi chỉ có một server duy nhất nên web server, db server được đặt chung với nhau. Điều này là một bất lợi lớn. Nhưng không sao, chúng ta phải chấp nhận vì có một server tốt như thế để hoạt động phi vụ lợi là rất tốt rồi.

Tiếp tục đọc

Tối ưu hóa hiệu suất máy chủ Apache

Việc tối ưu hóa hiệu suất của máy chủ Apache có thể tạo nên sự khác biệt về website của bạn và ấn tượng mà nó tạo ra, đặc biệt trên các site động. Trong bài này chúng tôi sẽ giới thiệu cho các bạn những vấn đề cơ bản trong cấu hình và cài đặt, hai lĩnh vực mà bạn có thể kiểm soát để tối ưu hóa hiệu suất của máy chủ Apache.

Việc đánh giá và cải thiện hiệu suất

Apache được thiết kế để có được tốc độ nhanh ở mức có thể. Mặc dù vậy, khi các site trở nên phức tạp và nhu cầu băng thông của kiểu kết nối khác nhau tăng lên, khi đó việc có được hiệu suất tốt nhất trong một cài đặt Apache và website trở thành một vấn đề quan trọng.

Việc nâng cao hiệu suất không có nghĩa là thực hiện những thay đổi để đạt được những thành quả không đáng kể. Việc tiêu tốn hàng giờ hoặc thậm chí nhiều ngày vào việc điều chỉnh một máy chủ cho một vài phần trăm là hành động lãng phí thời gian. Vì vậy, bước đầu tiên là bạn cần phải xác định máy chủ đang hoạt động của mình nhanh đến cỡ nào và mức hiệu suất nói chung của nó ra sao để có thể cải thiện hiệu suất và đánh giá được những thay đổi của mình.

Đây không phải là lần đầu tiên chúng tôi giới thiệu về việc test Apache. Như được lưu ý ở trên, việc xác định thành phần nào trong các ứng dụng web đang gây ra vấn đề – đặc biệt việc phân biệt xem liệu Apache hoặc môi trường ứng dụng mà bạn đang sử dụng với các site động là rất khó khăn. Việc nhận ra các vấn đề trong các ứng dụng động vượt ra ngoài phạm vi của bài này, tuy nhiên chúng tôi sẽ giới thiệu cho các bạn một số cách để cải thiện nói chung tốc độ của Apache và cách nó tương tác với các thành phần khác để hỗ trợ một website như thế nào.

Phần cứng máy chủ

Máy tính và môi trường hệ điều hành mà Apache đang chạy có ảnh hưởng lớn nhất. Rõ ràng rằng, một máy tính 386 cũ sẽ không thể cho hiệu suất tốt bằng một máy tính P4 hoặc dual-processor, tuy nhiên bạn có thể thực hiện một số cải thiện cho nó. Để tránh thay đổi phần cứng, thứ lớn nhất mà bạn có thể thực hiện là bảo đảm Apache đang chạy trên một máy chủ chuyên dụng. Thêm vào đó sự tồn tại các ứng dụng khác cũng ảnh hưởng đáng kể tới hiệu suất của máy chủ web.

Trong hầu hết các tình huống, đặc biệt là các website tĩnh, số lượng RAM là một hệ số quan trọng vì nó sẽ ảnh hưởng đến lượng thông tin mà Apache có thể nhớ (cache). Càng nhiều thông tin được cache thì hiệu suất của Apache trong việc xử lý mở và đọc một file nào đó trên đĩa sẽ càng thấp đi. Nếu site dựa trên hầu hết các file tĩnh, khi đó nên xem xét đến việc sử dụng mod_cache; nếu có khá nhiều RAM, khi đó bạn có thể cân nhắc đến mod_mem_cache.

Việc lưu thông tin vào đĩa trước đây tạo một khác biệt đáng kể nếu site dựa trên mod_include để xây dựng lên một trang. Với mod_mem_cache, các thông tin được lưu trong heap nhớ được chia sẻ bởi tất cả các quá trình của Apache.

Sử dụng đĩa tốc độ cao sẽ tốt hơn, giải pháp Redundant Array of Inexpensive Disks (RAID) là một trong những giải pháp được lựa chọn (RAID 0, 0+1, 5, 10, hoặc 50) sẽ cải thiện được tốc độ truy cập đến các file được phục vụ.

Mặc dù vậy cần lưu ý nếu bạn bị sự cố ở một truyến nào đó, thì một giải pháp phần cứng thay thế cho phần mềm là lựa chọn tốt nhất.

Cuối cùng, về mặt phần cứng, hiệu suất CPU có thể có sự ảnh hưởng trên các site động với các overhead phụ cho việc thực thi ứng dụng cho mỗi trang được truy cập. Các trang động thường yêu cầu CPU cao hơn.

Môi trường host

Không quan tâm đến hệ điều hành, bạn hãy sử dụng nguyên lý tối ưu dưới đây:

  • Giữ các ứng dụng background ở mức tối thiểu. Nếu bạn thực sự quan tâm đến vấn đề hiệu suất thì trước tiên cần phải xem xét đó là một số quá trình hoạt động ở chế độ background. Cho ví dụ, trong Unix, bạn nên tắt NFS, các dịch vụ in ấn và thậm chí cả sendmail nếu không cần thiết. Trong Windows, sử dụng System control panel để tối ưu hóa hệ thống cho các ứng dụng và cache hệ thống, tối ưu hệ thống về hiệu suất. Chỉ cần bảo đảm rằng các ứng dụng và các dịch vụ yêu cầu như MySQL vẫn đang chạy.
  • Tránh sử dụng hệ thống. Nếu bắt đầu biên dịch các ứng dụng, chỉnh sửa file hay sử dụng máy thì chắc chắn hiệu suất phục vụ web của máy sẽ giảm. Do đó nếu bạn phải chỉnh sửa các thành phần hoặc cài đặt phần mềm, hãy xây dựng hoặc chỉnh sửa các thành phần trên máy tính khác sau đó copy chúng sau.
  • Cần cập nhật liên tục hệ thống. Dẫu ý tưởng xuất phát từ quan điểm bảo mật nhưng việc nâng cấp phần mềm và cập nhật các bản vá cũng cải thiện đáng kể hiệu suất vào ra và hiệu suất mạng.

Ứng dụng Apache

Rõ ràng Apache cũng là một ứng dụng. Do đó đầu tiên cần bảo đảm nó được xây dựng đúng chỉ với các modul và các thành phần mở rộng cho các website. Điều đó có nghĩa rằng, cho ví dụ, bạn có thể bỏ qua các model ghi lại nếu không cần thiết. Lợi ích chủ yếu của việc đó là giảm được tải bộ nhớ, nhưng một lợi ích tốt nữa là bạn không thể kích hoạt vô tình các tùy chọn và do đó làm giảm hiệu suất máy chủ.

Tĩnh và động

Khả năng linh hoạt là vấn đề chủ yếu của hầu hết các quản trị viên Apache, tuy nhiên khả năng linh hoạt có giá của nó. Việc sử dụng các modul được load động bên trong Apache sẽ tạo sự thuận tiện nhưng chúng cũng ảnh hưởng đến hiệu suất, vì mã sẽ được nạp khi modul yêu cầu. Các modul động cũng có ưu điểm trong việc giữ cho các yêu cầu bộ ở thấp.

Để xây dựng một chế độ tĩnh, sử dụng kịch bản cấu hình và chỉ định các modul mà bạn muốn, tuy nhiên không chỉ định chia sẻ (chẳng hạn như sử dụng enable-rewrite mà không sử dụng –enable-rewrite=shared, hay sử dụng tùy chọn chia sẻ –enable-so).

Cấu hình modul

Nếu đang sử dụng cấu hình tĩnh của Apache, hãy chọn các modul mà bạn muốn hợp nhất để chăm sóc. Sử dụng chế độ tĩnh cũng phải trả giá – càng nhiều modul thì càng tốn nhiều bộ nhớ. Như vậy, một modul đa xử lý có thể sẽ có hiệu quả đáng kể trên các yêu cầu bộ nhớ của máy.

Lưu ý rằng có một số mục được đưa vào tự động, vì vậy bạn cần kích hoạt một cách rứt khoát và vô hiệu hóa các modul cần thiết. Cũng cần nhớ gộp các modul của các hãng thứ ba (chẳng hạn như thẩm định, PHP hoặc mod_perl), các yêu cầu dịch vụ web. Sử dụng cấu hình –help để có được danh sách các tùy chọn có sẵn.

Cấu hình máy chủ

Khi môi trường của bạn được thiết lập và ứng dụng Apache của bạn được tối ưu, đây chính là lúc bạn để ý đến file cấu hình để có những điều chỉnh tối ưu mạnh mẽ hơn. Một cách tốt là bắt đầu bằng cách dọn dẹp file để chỉ thị (directive) được giới hạn ở con số vài trăm bằng cách remove các chú thích. Ngoài ra, nó sẽ trở thành việc remove các thành phần không cần thiết hoặc các thành phần không cung cấp các lợi ích đích đáng.

Đơn giản hóa file cấu hình

Bước đầu tiên để tối ưu hóa là đơn giản hóa file cấu hình. Tuy sẽ không có những tiến bộ rõ nét về hiệu suất nhưng nó sẽ làm cho file cấu hình trở nên dễ dàng hơn trong sư dụng và vì vậy bạn sẽ tránh được trường hợp bỏ sót chỉ thị hoặc thành phần cần thay đổi.

Nếu thực hiện bất kỳ kiểu tối ưu nào, hãy bắt đầu với một trong các file cấu hình được cung cấp mặc định. Các file mày thường được lưu trong thư mục cấu hình Apache dưới tên httpd.conf.orig hoặc httpd-std.conf. Không nên sử dụng file high performance-std.conf; về lâu dài nó không thực sự hữu ích như những gì bạn nghĩ khi bắt đầu thêm vào một số lượng lớn các thông tin cấu hình bổ sung. Mặt khác, nếu mục tiêu của bạn là một máy chủ web tĩnh, tốc độ thì đây chắc chắn là cách dễ dàng nhất để bạn thực hiện được điều đó.

Nếu biết các chỉ thị cấu hình Apache, hoặc sẵn lòng nghiên cứu tài liệu, bước hiệu quả nhất và nhanh nhất mà bạn nên làm là remove tất cả các comment từ file cấu hình, vì chúng thường làm giảm uy tín các chỉ thị thực. Bạn cũng có thể remove các tham chiếu đến các hệ thống MPM hiện không sử dụng trên platform đã chọn.

Vô hiệu hóa các thành phần và hệ thống

Giờ đây chúng ta đã có một file cấu hình đơn giản, hãy bắt đầu remove các thành phần cấu hình cho các hệ thống hiện không sử dụng. Cụ thể như:

  • HostnameLookups, thành phần thường sẽ thêm overhead vào mỗi yêu cầu bằng cách yêu cầu tra cứu DNS trên máy khách, đầu tiên quan sát để tìm tên từ địa chỉ IP, sau đó tra cứu để chắc chắn thông tin đó không bị nhầm. Trong hầu hết các trường hợp, bạn có thể đơn giản vô hiệu hóa. Nếu thường xử lý với các file bản ghi của mình, bạn hãy sử dụng post-processing để xác định thông tin. Để vô hiệu hóa các tra cứu, nhóm chỉ thị dưới đây HostnameLookups off.
  • Symbolic links, đây là thành phần khi kích hoạt, sẽ làm cho Apache kiểm tra mọi yêu cầu để xác định xem liệu một liên kết tượng trưng có liên quan trong yêu cầu hay không. Trừ khi bạn thực sự cần đến các liên kết tượng trưng này, bằng không hãy tắt bỏ bằng cách  sử dụng: :<Directory /> Options -FollowSymLinks </Directory>
  • Server status and info, đây là một thành phần mặc dù rất hữu dụng khi test và kiểm tra máy chủ, nhưng nó sẽ tạo thêm overhead cho máy chủ web. Vô hiệu hóa bằng cách tìm kiếm các chỉ thị SetHandler server-status, và nếu có thể, remove modul từ Apache khi bạn cấu hình ứng dụng trong suốt quá trình xây dựng.
  • Wildcards và các tùy chọn linh hoạt cần được tránh nếu bạn có thể. Cho ví dụ, chỉ thịDirectoryIndex, sẽ chỉ thị rõ ràng danh sách các file được cấu hình, luôn liệt kê lựa chọn phù hợp nhất đầu tiên.
  • CGI execution cần có trừ khi bạn có một lý do tốt nào đó không thực hiện như vậy. Đặt tất cả các file CGI vào một thư mục và cấu hình nó cho thực thi CGI. Điều này sẽ tránh cho Apache có gắng xác định xem yêu có phải quả thực cho thành phần CGI hay không hay là một file tĩnh nào đó.

Vô hiệu hóa bản ghi

Việc ghi thông tin bản ghi là một quá trình tiêu tốn khá nhiều thời gian. Mặc dù vậy Apache luôn để mở tính năng này, do đó nó sẽ ngốn nhiều thời gian của máy chủ. Nếu việc lưu các thông tin bản ghi là không cần thiết, bạn có thể tiết kiệm được một vài chu trình xử lý bằng cách vô hiệu hóa nó. Để thực hiện điều này, hãy ghi chú các dòng bản ghi trong file cấu hình.

Nếu bạn quyết định giữ các bản ghi của mình, vô hiệu hóa HostnameLookups (xem bên trên) và bảo đảm copy các thông tin bản ghi ra một máy khác để phân tích các file.

Đơn giản hóa cấu hình mức thư mục

Các file .htaccess là các file rất hữu dụng cho việc mở rộng các tham số cấu hình máy chủ Apache mà không cần phải chỉnh sửa file cấu hình chính mỗi khi bạn muốn thay đổi thứ gì đó. Tuy nhiên vấn đề ở đây là việc sử dụng chúng sẽ làm chậm máy chủ của bạn.

Đầu tiên, máy chủ phải quan sát xem liệu file .htaccess có tồn tại hay không, sau đó nó phải phân tích cú pháp và xử lý các thành phần này trước khi sử dụng cấu hình cho thư mục đang được nói đến. Tồi tệ hơn, Apache phải xác định thông tin này không chỉ cho thư mục hiện hành mà còn cho cả các thư mục cha và sau đó phải tạo những thay đổi dựa trên nội dung của tất cả các file này.

Mặc dù vậy, nếu muốn tối đa hóa hiệu suất, bạn nên vô hiệu hóa việc sử dụng các file .htaccess. Bất cứ cấu hình thư mục cụ thể nào cũng đều có thể đi vào file cấu hình chính, nơi nó có thể được phân tích cú pháp một lần bởi Apache khi máy chủ bắt đầu.

Để vô hiệu hóa .htaccess thêm chỉ thị AllowOverride None và các phần <Directory>.

Cấu hình MPM

Multi-Processing Module (MPM) cho phép một nền tảng cụ thể có thể quản lý nhiều kết nối đồng thời. Các modul MPM cụ thể cho từng nền tảng. Các giải pháp có sẵn làm việc một cách đặc trưng với Unix, Windows, BeOS và NetWare. Với một số nền tảng thường có nhiều sự lựa chọn. Đối với hầu hết người dùng, cấu hình mặc định cho môi trường cụ thể nào đó làm việc khá tốt, đặc biệt khi việc có được các tham số chính xác có thể là một nhiệm vụ tốn thời gian. Bằng cách so sánh, nhiều kỹ thuật đã được mô tả có thể mang lại hiệu suất tốt hơn, tuy nhiên khi muốn có được hiệu suất tối đa cho máy chủ của mình thì bạn vẫn phải điều chỉnh cấu hình.

Dưới hầu hết các nền tảng chỉ có MPM, Unix có hai tùy chọn prefork và worker. MPM preforkchia ra một số các quá trình Apache giống nhau, còn worker tạo ra nhiều thread. Nói chung,prefork tốt hơn trên các hệ thống với một hoặc hai bộ vi xử lý, nơi các hệ điều hành hỗ trợ tốt hơn cho việc cắt nhỏ thời gian giữa các quá trình. Trên hệ thống có số lượng CPU cao hơn, mô hình thread chắc chắn sẽ hiệu quả hơn.

Trong gần như tất cả các trường hợp, chỉ thị MaxClients là hiệu quả nhất cho việc tăng hiệu suất máy chủ, vì nó kiểm soát số lượng tối đa các kết nối đồng thời mà máy chủ Apache có thể quản lý.

Tối ưu hóa các thành phần tĩnh

Nếu website của bạn sử dụng rất nhiều thành phần tĩnh, hoặc nếu bạn tách các thành phần động và tĩnh trên hai hoặc nhiều máy chủ web thì mục tiêu chính của bạn sẽ là cải thiện thời gian đáp trả mà Apache gửi trả lại các thông tin đã được yêu cầu. Cách đơn giản nhất để thực hiện điều này là sử dụng modul mod_cache. Bạn có thể sử dụng modul này với mod_disk_cache vàmod_mem_cache để cung cấp cache bộ nhớ và đĩa của các file tĩnh.

Kiểm tra tài liệu Apache trên modul mod_cache để có thêm thông tin chi tiết hơn.

Tối ưu hóa các thành phần động

Các thành phần động chắc chắn sẽ là thành phần tiêu tốn thời gian nhất cho bất cứ máy chủ web nào. Chúng, đặc biệt nếu bạn sử dụng CGI, sẽ làm tăng thêm thời gian đáp trả để load và thực thi một ứng dụng đơn giản. Có nhiều thông tin bổ sung để các bạn có thể tham khảo tại mod_perl,PHP, và Python và Java.

Ưu điểm chính của các giải pháp dựa trên kịch bản là chúng được nhúng một bộ thông dịch vào Apache, giúp remove vấn đề loading ban đầu cho các kịch bản động. Một số thậm chí còn lưu kịch bản đã được phân tích để dễ dàng được thực thi nếu có yêu cầu sau này.

Toi uu apache

Cấu hình có thể phức tạp và việc có được hệ thống chính xác có thể tốn nhiều thời gian. Một số giải pháp cũng không làm việc tốt chẳng hạn như giải pháp mong đợi với các host ảo, bạn sẽ cần phải thay đổi các kịch bản nào đó để lợi dụng các cải tiến về tốc độ mà nó cung cấp.

Mặc dù vậy những cải tiến ở đây rất đáng kể, có thể giảm được 70% thời gian thực thi đối với một kịch bản Perl bằng cách sử dụng mod_perl thay cho CGI. Thậm chí khi có nhiều công việc hơn, các giải pháp này cũng cho phép bạn giữ được các kết nối vững chắc với cơ sở dữ liệu hoặc có thể lưu trữ các thông tin giữa các yêu cầu. Đây là một điều tuyệt vời cho các site thương mại điện tử và cũng góp phần giảm overhead trong việc load các thông tin giữa các yêu cầu.

Kết luận

Dù Apache là một ứng dụng có thể cấu hình và khá phức tạp nhưng thực sự thú vị vì các cài đặt chuẩn của nó đạt được mức hiệu suất rất cao. Một lĩnh vực mà ở đó bạn có thể dễ dàng cải thiện đáng kể hiệu suất bằng cách điều chỉnh các tham số. Tuy nhiên không may thay, những tham số mà bạn có ít kiểm soát bên trong Apache –ví dụ như các thành phần động và các kịch bản CGI – lại là các tham số có ảnh hưởng lớn nhất về mặt hiệu suất. Kiểm ta một máy chủ Apache điển hình, bạn sẽ thấy rằng thời gian cho ứng dụng Apache để trả lời một kết nối và gửi dữ liệu trở lại chỉ vài ms – tuy nhiên việc đợi cho nguồn dữ liệu đó có thể mất đến vài giây.

Tuy nhiên điều này không phải là việc chúng tôi nhấn mạnh hành động tối ưu là vô nghĩa. Trong suốt quá trình làm việc một hàng thì số lượng ms sẽ ngày một tăng lên. Quan trọng hơn nữa là bạn có thể làm sạch và đơn giản hóa cấu hình Apache của mình từ đó giúp nó giảm được các overhead quản trị hơn trong quá trình thực hiện.